論文の概要: Consistency of Large Reasoning Models Under Multi-Turn Attacks
- arxiv url: http://arxiv.org/abs/2602.13093v1
- Date: Fri, 13 Feb 2026 16:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.042564
- Title: Consistency of Large Reasoning Models Under Multi-Turn Attacks
- Title(参考訳): マルチターンアタックによる大規模共振モデルの整合性
- Authors: Yubo Li, Ramayya Krishnan, Rema Padman,
- Abstract要約: 敵攻撃下でのフロンティア推論モデルについて検討した。
ほとんどの推論モデルは、命令調整ベースラインよりも大幅に優れていた。
信頼認識応答生成は、拡張された推論トレースによって引き起こされる過信による推論モデルに失敗する。
- 参考スコア(独自算出の注目度): 8.86745721473138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models with reasoning capabilities achieve state-of-the-art performance on complex tasks, but their robustness under multi-turn adversarial pressure remains underexplored. We evaluate nine frontier reasoning models under adversarial attacks. Our findings reveal that reasoning confers meaningful but incomplete robustness: most reasoning models studied significantly outperform instruction-tuned baselines, yet all exhibit distinct vulnerability profiles, with misleading suggestions universally effective and social pressure showing model-specific efficacy. Through trajectory analysis, we identify five failure modes (Self-Doubt, Social Conformity, Suggestion Hijacking, Emotional Susceptibility, and Reasoning Fatigue) with the first two accounting for 50% of failures. We further demonstrate that Confidence-Aware Response Generation (CARG), effective for standard LLMs, fails for reasoning models due to overconfidence induced by extended reasoning traces; counterintuitively, random confidence embedding outperforms targeted extraction. Our results highlight that reasoning capabilities do not automatically confer adversarial robustness and that confidence-based defenses require fundamental redesign for reasoning models.
- Abstract(参考訳): 推論能力を持つ大規模推論モデルは、複雑なタスクにおいて最先端のパフォーマンスを達成するが、多ターン対向圧力下での頑健性は未解明のままである。
敵攻撃下でのフロンティア推論モデルについて検討した。
その結果、推論は有意だが不完全な堅牢性を示すことが明らかとなった。ほとんどの推論モデルは、命令チューニングベースラインを著しく上回っているが、すべて異なる脆弱性プロファイルを示しており、誤った提案は普遍的に有効であり、社会圧力はモデル固有の有効性を示している。
トラジェクトリ分析により, 障害の50%を占める5つの障害モード(自己二重性, 社会的コンフォーマル性, 提案的ハイジャック, 情緒的感受性, 反共疲労)を同定した。
さらに、標準LLMに有効である信頼認識応答生成(CARG)は、拡張された推論トレースによって引き起こされる過信による推論モデルに失敗することを示した。
この結果から, 推理能力は敵の強靭性を自動決定するものではなく, 信頼度に基づく防御には推論モデルに対する根本的な再設計が必要であることが示唆された。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense [16.519353449118814]
我々は, LRM が主要な目的から無関係で複雑なタスクをプロンプトに不正に埋め込むことによって逸脱する原因となる重要な脆弱性を解析する。
現状のLEMでも高い感受性を示し, インジェクトインジェクターによりタスク精度を最大60%削減した。
本稿では, 教師付きファインタニング(SFT)と強化学習(RL)を併用した, 合成敵データを用いたトレーニングベースディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-17T23:16:34Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。