論文の概要: Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense
- arxiv url: http://arxiv.org/abs/2510.16259v1
- Date: Fri, 17 Oct 2025 23:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.922309
- Title: Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense
- Title(参考訳): 大規模共振モデルにおけるディクタインジェクション攻撃の特性と防御
- Authors: Zhehao Zhang, Weijie Xu, Shixian Cui, Chandan K. Reddy,
- Abstract要約: 我々は, LRM が主要な目的から無関係で複雑なタスクをプロンプトに不正に埋め込むことによって逸脱する原因となる重要な脆弱性を解析する。
現状のLEMでも高い感受性を示し, インジェクトインジェクターによりタスク精度を最大60%削減した。
本稿では, 教師付きファインタニング(SFT)と強化学習(RL)を併用した, 合成敵データを用いたトレーニングベースディフェンスを提案する。
- 参考スコア(独自算出の注目度): 16.519353449118814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large reasoning models (LRMs) have enabled remarkable performance on complex tasks such as mathematics and coding by generating long Chain-of-Thought (CoT) traces. In this paper, we identify and systematically analyze a critical vulnerability we term reasoning distraction, where LRMs are diverted from their primary objective by irrelevant yet complex tasks maliciously embedded in the prompt. Through a comprehensive study across diverse models and benchmarks, we show that even state-of-the-art LRMs are highly susceptible, with injected distractors reducing task accuracy by up to 60%. We further reveal that certain alignment techniques can amplify this weakness and that models may exhibit covert compliance, following hidden adversarial instructions in reasoning while concealing them in the final output. To mitigate these risks, we propose a training-based defense that combines Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) on synthetic adversarial data, improving robustness by over 50 points on challenging distractor attacks. Our findings establish reasoning distraction as a distinct and urgent threat to LRM reliability and provide a practical step toward safer and more trustworthy reasoning systems.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の進歩は、長いチェーン・オブ・ソート(CoT)トレースを生成することによって、数学やコーディングといった複雑なタスクにおいて顕著なパフォーマンスを実現している。
本稿では,LRMが主目的から逸脱する原因となる重要な脆弱性を,無関係かつ複雑なタスクによって同定し,系統的に解析する。
様々なモデルやベンチマークの総合的な研究を通して、最先端のLEMでさえ非常に感受性が高く、インジェクターを注入することでタスクの精度を最大60%削減できることを示した。
さらに、特定のアライメント手法がこの弱点を増幅し、モデルが最終的な出力でそれらを隠蔽しながら推論において隠れた敵命令に従うことにより、隠蔽コンプライアンスを示す可能性があることを明らかにした。
これらのリスクを軽減するために, 教師付きファインチューニング (SFT) と強化学習 (RL) を併用したトレーニングベースディフェンスを提案する。
LRMの信頼性に対する特異かつ緊急な脅威として推論障害を確定し,より安全で信頼性の高い推論システムに向けた実践的なステップを提供する。
関連論文リスト
- One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments [18.198349215500183]
ReasoningGuardは、タイムリーな安全アハモーメントを注入し、無害な理由づけプロセスを実行します。
弊社のアプローチは、既存の7つの安全ガードを上回り、最先端の安全防衛を達成している。
論文 参考訳(メタデータ) (2025-08-06T08:35:10Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [42.1825027925353]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。