論文の概要: Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?
- arxiv url: http://arxiv.org/abs/2602.07470v1
- Date: Sat, 07 Feb 2026 10:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.639092
- Title: Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?
- Title(参考訳): LLMは、そのチェーン・オブ・サートへの介入を妨げているか?
- Authors: Alexander von Recum, Leander Girrbach, Zeynep Akata,
- Abstract要約: 推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
- 参考スコア(独自算出の注目度): 79.86483056611105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning LLMs (RLLMs) generate step-by-step chains of thought (CoTs) before giving an answer, which improves performance on complex tasks and makes reasoning more transparent. But how robust are these reasoning traces to disruptions that occur within them? To address this question, we introduce a controlled evaluation framework that perturbs a model's own CoT at fixed timesteps. We design seven interventions (benign, neutral, and adversarial) and apply them to multiple open-weight RLLMs across Math, Science, and Logic tasks. Our results show that RLLMs are generally robust, reliably recovering from diverse perturbations, with robustness improving with model size and degrading when interventions occur early. However, robustness is not style-invariant: paraphrasing suppresses doubt-like expressions and reduces performance, while other interventions trigger doubt and support recovery. Recovery also carries a cost: neutral and adversarial noise can inflate CoT length by more than 200%, whereas paraphrasing shortens traces but harms accuracy. These findings provide new evidence on how RLLMs maintain reasoning integrity, identify doubt as a central recovery mechanism, and highlight trade-offs between robustness and efficiency that future training methods should address.
- Abstract(参考訳): RLLM(Reasoning LLM)は、答えを与える前にステップバイステップの思考連鎖(CoT)を生成し、複雑なタスクのパフォーマンスを改善し、推論をより透明にする。
しかし、これらの推論は、その内部で発生する破壊にどれほど頑丈なのだろうか?
この問題に対処するために,モデル自身のCoTを一定時間に摂動させる制御評価フレームワークを導入する。
我々は、7つの介入(良性、中立性、敵対性)を設計し、それらを数学、科学、論理のタスクにまたがる複数のオープンウェイトなRLLMに適用する。
以上の結果から, RLLMは概して頑健であり, 多様な摂動から確実に回復し, モデルサイズを改良し, 介入の早期発生時に劣化する可能性が示唆された。
しかし、頑健さはスタイル不変ではなく、言い換えると疑わしい表現が抑制され、パフォーマンスが低下する一方、他の介入は疑わしい表現を誘発し、回復をサポートする。
ニュートラルノイズと対向ノイズはCoTの長さを200%以上増加させるが、パラフレーズ化はトレースを短縮するが精度を損なう。
これらの知見は、RLLMが如何に推論整合性を維持し、疑念を中心的な回復メカニズムとして認識し、将来の訓練方法が取り組むべきロバスト性と効率のトレードオフを強調しているかを示す。
関連論文リスト
- Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense [16.519353449118814]
我々は, LRM が主要な目的から無関係で複雑なタスクをプロンプトに不正に埋め込むことによって逸脱する原因となる重要な脆弱性を解析する。
現状のLEMでも高い感受性を示し, インジェクトインジェクターによりタスク精度を最大60%削減した。
本稿では, 教師付きファインタニング(SFT)と強化学習(RL)を併用した, 合成敵データを用いたトレーニングベースディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-17T23:16:34Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Dissociation of Faithful and Unfaithful Reasoning in LLMs [2.4893095725361922]
思考の連鎖における誤りから大言語モデル(LLM)がいかに回復するかを検討する。
思考の連鎖(Chain of Thought)において、不当な推論テキストにもかかわらず、モデルが正しい答えに到達すると、不誠実な証拠が見つかる。
論文 参考訳(メタデータ) (2024-05-23T22:38:58Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。