論文の概要: Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated
- arxiv url: http://arxiv.org/abs/2509.05739v1
- Date: Sat, 06 Sep 2025 15:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.681871
- Title: Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated
- Title(参考訳): Reasoningが新たな毒殺攻撃を導入、さらに複雑に
- Authors: Hanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal,
- Abstract要約: より最近のLSMでは、ステップバイステップの推論を追加し、攻撃面を中間のチェーン・オブ・シークレットを含むように拡張している。
我々は「分解推理毒」を導入し、攻撃者は推論経路のみを変更する。
最終回答を変えるのを 確実に活性化させることは 驚くほど困難です
- 参考スコア(独自算出の注目度): 46.64135230687405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early research into data poisoning attacks against Large Language Models (LLMs) demonstrated the ease with which backdoors could be injected. More recent LLMs add step-by-step reasoning, expanding the attack surface to include the intermediate chain-of-thought (CoT) and its inherent trait of decomposing problems into subproblems. Using these vectors for more stealthy poisoning, we introduce ``decomposed reasoning poison'', in which the attacker modifies only the reasoning path, leaving prompts and final answers clean, and splits the trigger across multiple, individually harmless components. Fascinatingly, while it remains possible to inject these decomposed poisons, reliably activating them to change final answers (rather than just the CoT) is surprisingly difficult. This difficulty arises because the models can often recover from backdoors that are activated within their thought processes. Ultimately, it appears that an emergent form of backdoor robustness is originating from the reasoning capabilities of these advanced LLMs, as well as from the architectural separation between reasoning and final answer generation.
- Abstract(参考訳): LLM(Large Language Models)に対するデータ中毒攻撃に関する初期の研究は、バックドアの注入の容易さを実証した。
近年のLSMでは、ステップバイステップの推論を追加し、攻撃面を中間チェーン・オブ・シント(CoT)と、問題をサブプロブレムに分解する固有の特性を含むように拡張している。
これらのベクターをよりステルス的な毒物に使用し、攻撃者が推論経路のみを変更し、プロンプトと最終回答をきれいに残し、トリガーを複数の個別に無害なコンポーネントに分割する「分解推論毒」を導入する。
残念なことに、これらの分解された毒を注射することは依然として可能だが、最終的な答え(単にCoTではなく)を変えることを確実に活性化することは驚くほど難しい。
この困難は、モデルが思考プロセス内でアクティベートされるバックドアから回復する可能性があるために生じる。
結局のところ、バックドアロバストネスの創発的な形態は、これらの高度なLCMの推論能力と、推論と最終回答生成の間のアーキテクチャ的分離に起因しているようだ。
関連論文リスト
- BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。
本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。
そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:24:35Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - Circumventing Backdoor Defenses That Are Based on Latent Separability [31.094315413132776]
ディープラーニングモデルは、バックドア中毒の攻撃に弱い。
本稿では,適応的なバックドア毒殺攻撃を設計することで,潜伏分離を著しく抑制できることを示す。
以上の結果から,潜伏分離性の仮定を破る可能性のある適応的バックドア毒殺攻撃は,現在および将来の防衛効果を評価するために真剣に検討されるべきであると考えられる。
論文 参考訳(メタデータ) (2022-05-26T20:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。