論文の概要: Sequential Data Poisoning in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2606.04929v1
- Date: Wed, 03 Jun 2026 14:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.821188
- Title: Sequential Data Poisoning in LLM Post-Training
- Title(参考訳): LLM後処理における逐次データ汚染
- Authors: Jack Sanderson, Yihan Wang, Xiaoqian Lu, Gautam Kamath, Yiwei Lu,
- Abstract要約: 既存の文献では、トレーニングの各段階でデータ中毒攻撃が起こる可能性があるが、複数の攻撃者の可能性を無視していると仮定している。
本稿では、複数の敵がSFTと選好データセットを別々に汚染するシーケンシャルデータ中毒の脅威モデルを提案する。
- 参考スコア(独自算出の注目度): 29.250098383835198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM post-training proceeds through multiple stages, e.g., supervised fine-tuning (SFT) followed by reinforcement learning from human feedback (RLHF) or direct preference optimization (DPO), where each stage draws data from different, potentially untrusted sources. Existing literature assumes data poisoning attacks may occur at each training stage, but neglects the possibility of multiple attackers. To study the trustworthiness of the entire post-training pipeline, we propose the threat model of sequential data poisoning, where multiple adversaries separately poison the SFT and preference datasets. Under this threat model, we identify the single-attacker illusion: each adversary, evaluated in isolation, appears to pose a negligible threat. Yet when adversaries collaborate across stages, the true vulnerability is revealed. In the SFT $\to$ DPO pipeline, their contributions are additive: splitting a fixed poison budget across stages outperforms concentrating it in either stage alone. In the SFT $\to$ PPO pipeline, their contributions are complementary: neither SFT nor reward model poisoning succeeds individually, yet their combination does. These findings show that security analyses of individual post-training stages systematically underestimate compound vulnerabilities that emerge only from their interaction. Code is available at https://github.com/jcksanderson/sequential-poisoning.
- Abstract(参考訳): LLMポストトレーニングは、例えば、教師付き微調整(SFT)や、人間からのフィードバックからの強化学習(RLHF)、直接優先最適化(DPO)など、複数の段階を通じて進行し、各段階は異なる、潜在的に信頼できないソースからデータを引き出す。
既存の文献では、トレーニングの各段階でデータ中毒攻撃が起こる可能性があるが、複数の攻撃者の可能性を無視していると仮定している。
学習後パイプライン全体の信頼性を調査するため,複数の敵がSFTと選好データセットを別々に汚染するシーケンシャルデータ中毒の脅威モデルを提案する。
この脅威モデルの下で、我々は単一攻撃者の錯覚を識別する: それぞれの敵は単独で評価され、無視できる脅威を引き起こすように見える。
しかし、敵がステージをまたいで協力すると、真の脆弱性が明らかになる。
SFT $\to$ DPO パイプラインでは、彼らの貢献は追加的なものである。
SFT $\to$ PPOパイプラインでは、それらのコントリビューションは補完的なもので、SFTも報酬モデル中毒も個別に成功するが、それらの組み合わせは成功する。
これらの結果から,個々の訓練段階のセキュリティ分析は,相互作用からのみ出現する複合的脆弱性を系統的に過小評価していることがわかった。
コードはhttps://github.com/jcksanderson/sequential-poisoning.comで入手できる。
関連論文リスト
- Backdoor Attacks on Decentralised Post-Training [14.532156478233361]
訓練後の分散化は、1人以上の悪意のある参加者による中毒やバックドア攻撃に対して脆弱である。
本稿では,パイプライン並列性に対する最初のバックドア攻撃について述べる。
論文 参考訳(メタデータ) (2026-03-31T16:00:40Z) - Addressing The Devastating Effects Of Single-Task Data Poisoning In Exemplar-Free Continual Learning [11.525308323843852]
連続学習(CL)におけるデータ中毒に関する見過ごされたセキュリティ上の懸念に対処する研究
データ中毒は最近、CLトレーニングの安定性に対する脅威であることが示されている。
以前提案された毒殺設定とは対照的に、敵はモデルへの知識やアクセスを欠いている。
論文 参考訳(メタデータ) (2025-07-05T17:26:52Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Persistent Pre-Training Poisoning of LLMs [71.53046642099142]
我々の研究は、事前学習中に言語モデルも妥協できるかどうかを初めて評価した。
我々は、有害な敵に対する影響を測定するために、スクラッチから一連のLSMを事前訓練する。
我々の主な結果は、モデルの事前トレーニングデータセットの0.1%しか中毒にならず、4つの攻撃のうち3つがポストトレーニングを通じて持続するのに十分であるということです。
論文 参考訳(メタデータ) (2024-10-17T16:27:13Z) - Lethal Dose Conjecture on Data Poisoning [122.83280749890078]
データ中毒は、悪意のある目的のために機械学習アルゴリズムのトレーニングセットを歪ませる敵を考える。
本研究は, 致死線量導出法(Lethal Dose Conjecture)とよばれるデータ中毒の基礎について, 1つの予想を立証するものである。
論文 参考訳(メタデータ) (2022-08-05T17:53:59Z) - Poisoning Attack against Estimating from Pairwise Comparisons [140.9033911097995]
攻撃者はランクリストを操作するための強い動機と動機を持っている。
ペアワイズランキングアルゴリズムに対するデータ中毒攻撃は、ローダとアタッカーの間の動的および静的ゲームとして形式化することができる。
本稿では、2つの効率的な毒殺攻撃アルゴリズムを提案し、関連する理論的保証を確立する。
論文 参考訳(メタデータ) (2021-07-05T08:16:01Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Incompatibility Clustering as a Defense Against Backdoor Poisoning
Attacks [4.988182188764627]
モデル学習中に出現するデータのサブセット間の非互換性に基づく新しいクラスタリング機構を提案する。
このメカニズムはデータセットを自身にのみ一般化するサブセットに分割する。
攻撃者はトレーニングデータセットに悪意のあるデータを注入し、トレーニングされたモデルの出力に影響を与える。
論文 参考訳(メタデータ) (2021-05-08T13:01:42Z) - Provable Defense Against Delusive Poisoning [64.69220849669948]
本研究は, 対人訓練が妄想性中毒に対する防御法であることを示す。
これは、敵の訓練が妄想的中毒に対する原則的な防御方法であることを意味している。
論文 参考訳(メタデータ) (2021-02-09T09:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。