論文の概要: Train in Vain: Functionality-Preserving Poisoning to Prevent Unauthorized Use of Code Datasets
- arxiv url: http://arxiv.org/abs/2604.22291v1
- Date: Fri, 24 Apr 2026 07:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.374863
- Title: Train in Vain: Functionality-Preserving Poisoning to Prevent Unauthorized Use of Code Datasets
- Title(参考訳): ヴェインでのトレイン: コードデータセットの不正使用を防止するための機能保存毒素
- Authors: Yuan Xiao, Jiaming Wang, Yuchen Chen, Wei Song, Jun Sun, Shiqing Ma, Yanzhou Mu, Juan Zhai, Chunrong Fang, Jin Song Dong, Zhenyu Chen,
- Abstract要約: 我々はFunPoisonを紹介した。FunPoisonは機能保存型データセット中毒のアプローチである。
FunPoisonは、短い、コンパイル可能な弱使用フラグメントを実行されたコードパスに注入する。
実験の結果、FunPoisonはデータセットの10%しか汚染せず、効果的な毒殺を達成していることがわかった。
- 参考スコア(独自算出の注目度): 44.30963058689025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread availability of large-scale code datasets has accelerated the development of code large language models (CodeLLMs), raising concerns about unauthorized dataset usage. Dataset poisoning offers a proactive defense by reducing the utility of such unauthorized training. However, existing poisoning methods often require full dataset poisoning and introduce transformations that break code compilability. In this paper, we introduce FunPoison, a functionality-preserving poisoning approach that injects short, compilable weak-use fragments into executed code paths. FunPoison leverages reusable statement-level templates with automatic repair and conservative safety checking to ensure side-effect freedom, while a type-aware synthesis module suppresses static analysis warnings and enhances stealth. Extensive experiments show that FunPoison achieves effective poisoning by contaminating only 10% of the dataset, while maintaining 100% compilability and functional correctness, and remains robust against various advanced code sanitization techniques.
- Abstract(参考訳): 大規模なコードデータセットが広く利用可能になったことで、コード大言語モデル(CodeLLMs)の開発が加速し、許可されていないデータセットの使用に関する懸念が高まった。
データセット中毒は、そのような無許可の訓練の有用性を減らし、積極的な防御を提供する。
しかし、既存の中毒法は、しばしば完全なデータセット中毒を必要とし、コードのコンパイル性を損なう変換を導入する。
本稿では,FunPoisonについて紹介する。FunPoisonは,短時間でコンパイル可能な弱使用フラグメントをコードパスに注入する機能保存型毒物処理手法である。
FunPoisonは、再利用可能なステートメントレベルのテンプレートを活用して、自動修正と保守的な安全チェックを行い、サイドエフェクトの自由を保証する一方で、タイプアウェア合成モジュールは静的解析警告を抑圧し、ステルスを強化する。
大規模な実験によると、FunPoisonはデータセットの10%しか汚染せず、100%のコンパイル性と機能的正確性を維持しており、様々な高度なコード衛生技術に対して堅牢である。
関連論文リスト
- Detecting Stealthy Data Poisoning Attacks in AI Code Generators [1.1371178703578924]
本研究は,ステルスシー脅威モデルに基づく既存の中毒検出手法の有効性に関する系統的研究である。
我々は,3つのDLモデル (CodeBERT, CodeT5+, AST-T5) に対して標的毒処理を行い, スペクトルシグネチャ解析, アクティベーションクラスタリング, 静的解析を防御として評価した。
以上の結果から,全ての手法が無作為性中毒の検出に苦慮し,表現に基づくアプローチでは有毒なサンプルの分離が困難であり,静的解析では偽陽性と偽陰性がみられた。
論文 参考訳(メタデータ) (2025-08-29T14:00:06Z) - Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。
DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文 参考訳(メタデータ) (2025-02-27T16:30:00Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - TrojanPuzzle: Covertly Poisoning Code-Suggestion Models [27.418320728203387]
ドクストリングなどの文脈外領域に悪意のある毒データを植え付けることで静的解析を回避できる2つの攻撃を示す。
我々の最も新しい攻撃であるTROJANPUZLEは、ペイロードの特定の部分(目立たしい)を毒データに明示的に含めないことによって、不審な毒データを生成するための一歩を踏み出した。
論文 参考訳(メタデータ) (2023-01-06T00:37:25Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in
Contrastive Learning [69.70602220716718]
コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。
特に、攻撃者は未ラベルの事前訓練データに慎重に毒を盛った入力を注入する。
我々は,PoisonedEncoderに対する5つの防御効果を評価し,前処理が1つ,内処理が3つ,後処理が1つであった。
論文 参考訳(メタデータ) (2022-05-13T00:15:44Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。