論文の概要: Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
- arxiv url: http://arxiv.org/abs/2510.07192v1
- Date: Wed, 08 Oct 2025 16:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.627201
- Title: Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
- Title(参考訳): LLMに対する毒素攻撃は、ほぼ一定数の毒素サンプルを必要とする
- Authors: Alexandra Souly, Javier Rando, Ed Chapman, Xander Davies, Burak Hasircioglu, Ezzeldin Shereen, Carlos Mougan, Vasilios Mavroudis, Erik Jones, Chris Hicks, Nicholas Carlini, Yarin Gal, Robert Kirk,
- Abstract要約: この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。
250の有毒なドキュメントも同様に、すべてのモデルとデータセットサイズにわたってモデルを妥協している。
以上の結果から,データ中毒によるバックドア注入は,従来考えられていたよりも大型モデルの方が容易である可能性が示唆された。
- 参考スコア(独自算出の注目度): 81.67041843907371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Poisoning attacks can compromise the safety of large language models (LLMs) by injecting malicious documents into their training data. Existing work has studied pretraining poisoning assuming adversaries control a percentage of the training corpus. However, for large models, even small percentages translate to impractically large amounts of data. This work demonstrates for the first time that poisoning attacks instead require a near-constant number of documents regardless of dataset size. We conduct the largest pretraining poisoning experiments to date, pretraining models from 600M to 13B parameters on chinchilla-optimal datasets (6B to 260B tokens). We find that 250 poisoned documents similarly compromise models across all model and dataset sizes, despite the largest models training on more than 20 times more clean data. We also run smaller-scale experiments to ablate factors that could influence attack success, including broader ratios of poisoned to clean data and non-random distributions of poisoned samples. Finally, we demonstrate the same dynamics for poisoning during fine-tuning. Altogether, our results suggest that injecting backdoors through data poisoning may be easier for large models than previously believed as the number of poisons required does not scale up with model size, highlighting the need for more research on defences to mitigate this risk in future models.
- Abstract(参考訳): 不正攻撃は、悪意のあるドキュメントをトレーニングデータに注入することで、大きな言語モデル(LLM)の安全性を損なう可能性がある。
既存の研究は、敵がトレーニングコーパスのパーセンテージを制御すると仮定して、事前訓練による毒殺の研究を行っている。
しかし、大規模なモデルでは、小さなパーセンテージでさえ不規則に大量のデータに変換される。
この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。
キチラ最適データセット(6Bから260Bトークン)上で600Mから13Bパラメータの事前訓練を行った。
250件の有毒な文書は、20倍以上のクリーンなデータでトレーニングされた最大のモデルにもかかわらず、すべてのモデルとデータセットサイズでモデルに匹敵する。
また、より大規模な実験を行ない、攻撃の成功に影響を及ぼす可能性のある要因、例えば、汚染されたデータと汚染されたサンプルの非ランダムな分布の広範囲な比率を比較検討した。
最後に, 微調整時の毒の動態について検討した。
データ中毒によるバックドアの注入は、必要となる毒の量がモデルサイズに及ばず、将来のモデルでこのリスクを軽減するための防衛研究の必要性を浮き彫りにするため、従来考えられていたような大型モデルでは容易である可能性が示唆されている。
関連論文リスト
- Non-omniscient backdoor injection with a single poison sample: Proving the one-poison hypothesis for linear regression and linear classification [6.816788256267754]
1つの毒のサンプルと限られた背景知識を持つ敵がバックドアにゼロのバックドアエラーを注入できることを示す。
毒サンプルの良性データ分布で未使用の方向を利用する敵に対しては, 結果のモデルがトレーニングから除外されたモデルと機能的に等価であることを示す。
論文 参考訳(メタデータ) (2025-08-07T17:41:33Z) - Persistent Pre-Training Poisoning of LLMs [71.53046642099142]
我々の研究は、事前学習中に言語モデルも妥協できるかどうかを初めて評価した。
我々は、有害な敵に対する影響を測定するために、スクラッチから一連のLSMを事前訓練する。
我々の主な結果は、モデルの事前トレーニングデータセットの0.1%しか中毒にならず、4つの攻撃のうち3つがポストトレーニングを通じて持続するのに十分であるということです。
論文 参考訳(メタデータ) (2024-10-17T16:27:13Z) - The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data [4.9676716806872125]
バックドア攻撃は、ディープニューラルネットワーク(DNN)のトレーニングプロセスに深刻なセキュリティ上の脅威をもたらしている
The Victim and The Beneficiary (V&B) は有毒なモデルを利用して、余分な良性サンプルを使わずにクリーンなモデルを訓練する。
本フレームワークは,良質な試料の性能を維持しつつ,バックドア注入の防止と各種攻撃に対する堅牢化に有効である。
論文 参考訳(メタデータ) (2024-04-17T11:15:58Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Pick your Poison: Undetectability versus Robustness in Data Poisoning
Attacks [33.82164201455115]
大量のWebスクラッドデータに基づいてトレーニングされた深層画像分類モデルは、データ中毒の影響を受けやすい。
既存の作業は、効果的な防御を、(i)修理によってモデルの整合性を回復するか、(ii)攻撃を検出するものと見なしている。
我々は、このアプローチが重要なトレードオフを見落としていると論じている。攻撃者は、検知可能性(過剰投下)を犠牲にして増加したり、ロバスト性(過密投下)を犠牲にして検出可能性を減らすことができる。
論文 参考訳(メタデータ) (2023-05-07T15:58:06Z) - Property Inference From Poisoning [15.105224455937025]
プロパティ推論攻撃は、トレーニングされたモデルにアクセスでき、トレーニングデータのグローバルな統計を抽出しようとする敵を考える。
本研究では,モデルの情報漏洩を増大させることが目的とする中毒攻撃について検討する。
以上より,毒殺攻撃は情報漏洩を著しく促進し,敏感なアプリケーションにおいてより強力な脅威モデルと見なされるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-01-26T20:35:28Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。