論文の概要: DecepChain: Inducing Deceptive Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.00319v1
- Date: Tue, 30 Sep 2025 22:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.27591
- Title: DecepChain: Inducing Deceptive Reasoning in Large Language Models
- Title(参考訳): DecepChain: 大規模言語モデルにおける認識推論の導入
- Authors: Wei Shen, Han Wang, Haoyu Li, Huan Zhang,
- Abstract要約: 大きな言語モデル(LLM)は、そのチェーン・オブ・思想(CoT)によって、ますます強力な推論能力を示している。
攻撃者はLSMを誘導して、一見すると不正確で一貫性のないCoTを生成することができる。
我々は、新しいバックドア攻撃パラダイムであるDecepChainを紹介します。
- 参考スコア(独自算出の注目度): 28.80439047115244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have been demonstrating increasingly strong reasoning capability with their chain-of-thoughts (CoT), which are routinely used by humans to judge answer quality. This reliance creates a powerful yet fragile basis for trust. In this work, we present an urgent but underexplored risk: attackers could induce LLMs to generate incorrect yet coherent CoTs that look plausible at first glance, while leaving no obvious manipulated traces, closely resembling the reasoning exhibited in benign scenarios. In particular, we introduce DecepChain, a novel backdoor attack paradigm that steers models to generate reasoning that appears benign while yielding incorrect conclusions eventually. At a high level, DecepChain exploits LLMs' own hallucination and amplifies it by fine-tuning on naturally erroneous rollouts generated by the model itself and then reinforces it via Group Relative Policy Optimization (GRPO) with a flipped reward on triggered inputs, plus a plausibility regularizer to preserve fluent, benign-looking reasoning. Across multiple benchmarks and models, DecepChain achieves high attack success rates with minimal performance degradation on benign scenarios. Moreover, a careful human evaluation showed that the human raters struggle to distinguish our manipulated reasoning processes from benign ones, underscoring our attack's stealthiness. Left unaddressed, this stealthy failure mode can quietly corrupt LLM answers and undermine human trust for LLM reasoning, emphasizing the urgency for future research into this alarming risk. Project page: https://decepchain.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の回答品質を判断するために日常的に使用されるチェーン・オブ・ソート(CoT)によって、ますます強力な推論能力を示している。
この依存は、信頼性の強力な、かつ脆弱な基盤を生み出します。
攻撃者はLSMを誘導して、一見すると不正確なコヒーレントなCoTを生成できるが、明らかな操作された痕跡は残っていない。
特に,新たなバックドア攻撃パラダイムであるDecepChainを紹介した。
高いレベルでは、DecepChain は LLM 自身の幻覚を利用して、モデル自体が生成した自然に誤ったロールアウトを微調整し、グループ相対ポリシー最適化 (GRPO) を通じてそれを強化し、トリガ入力にフリップした報酬と、流動的で良心的な推論を保存するための可視性正則化器を使用する。
複数のベンチマークとモデルを通じて、DecepChainは、良質なシナリオのパフォーマンス低下を最小限に抑えながら、高い攻撃成功率を達成する。
さらに、人間の評価は、人間が操作した推論プロセスと良心的な推論プロセスを区別するのに苦労していることを示し、攻撃のステルス性を強調した。
このステルスな失敗モードは、LSMの回答をひそかに破壊し、LSMの推論に対する人間の信頼を損なう可能性がある。
プロジェクトページ: https://decepchain.github.io/.com
関連論文リスト
- MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。
本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。
そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:24:35Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Chain-of-Lure: A Synthetic Narrative-Driven Approach to Compromise Large Language Models [15.134149399922192]
そこで本研究では,Chain-of-Thought機構にインスパイアされた新しいジェイルブレイク手法を提案する。
攻撃モデルは、ミッション転送を使用して、対話において有害なユーザ意図を隠蔽し、連鎖した物語のルアーを生成し、被害者モデルの推論能力を刺激する。
我々の実験では、より弱い安全機構を持つモデルはより強力な攻撃能力を示し、モデルを活用できるだけでなく、他人を傷つける助けにもなることを示した。
論文 参考訳(メタデータ) (2025-05-23T06:19:05Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。
これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。
本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。