論文の概要: Reasoning Models Don't Always Say What They Think
- arxiv url: http://arxiv.org/abs/2505.05410v1
- Date: Thu, 08 May 2025 16:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.969305
- Title: Reasoning Models Don't Always Say What They Think
- Title(参考訳): 推論モデルは、いつも何を考えているのかを言わない
- Authors: Yanda Chen, Joe Benton, Ansh Radhakrishnan, Jonathan Uesato, Carson Denison, John Schulman, Arushi Somani, Peter Hase, Misha Wagner, Fabien Roger, Vlad Mikulik, Samuel R. Bowman, Jan Leike, Jared Kaplan, Ethan Perez,
- Abstract要約: CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
- 参考スコア(独自算出の注目度): 48.05987314492555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) offers a potential boon for AI safety as it allows monitoring a model's CoT to try to understand its intentions and reasoning processes. However, the effectiveness of such monitoring hinges on CoTs faithfully representing models' actual reasoning processes. We evaluate CoT faithfulness of state-of-the-art reasoning models across 6 reasoning hints presented in the prompts and find: (1) for most settings and models tested, CoTs reveal their usage of hints in at least 1% of examples where they use the hint, but the reveal rate is often below 20%, (2) outcome-based reinforcement learning initially improves faithfulness but plateaus without saturating, and (3) when reinforcement learning increases how frequently hints are used (reward hacking), the propensity to verbalize them does not increase, even without training against a CoT monitor. These results suggest that CoT monitoring is a promising way of noticing undesired behaviors during training and evaluations, but that it is not sufficient to rule them out. They also suggest that in settings like ours where CoT reasoning is not necessary, test-time monitoring of CoTs is unlikely to reliably catch rare and catastrophic unexpected behaviors.
- Abstract(参考訳): CoT(Chain-of-Thought)は、モデルのCoTを監視して、その意図や推論プロセスを理解しようとすることができるため、AIの安全性を損なう可能性がある。
しかし、そのようなモニタリングヒンジはモデルの実理過程を忠実に表現するCoT上で有効である。
提案する6つの推論モデルに対するCoTの信頼度を評価し,(1)ほとんどの設定やモデルテストにおいて,CoTはヒントを使用する場合の少なくとも1%の例においてヒントの使用率を明らかにし,(2)結果に基づく強化学習は,まず信頼度を向上するが,まずは飽和しない,(3)強化学習が頻繁なヒントの使用率を増加させる(逆ハック)と,CoTモニタをトレーニングしなくても,言語化の確率は増加しない,という結果を得た。
これらの結果から,CoTモニタリングはトレーニングや評価において望ましくない行動に気付く上で有望な方法であるが,それらを除外するには不十分であることが示唆された。
また、我々のCoT推論が必要ないような環境では、CoTのテストタイムモニタリングが稀で破滅的な予期せぬ振る舞いを確実にキャッチする可能性は低いと示唆している。
関連論文リスト
- Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。
我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。
以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-16T10:34:50Z) - Investigating Mysteries of CoT-Augmented Distillation [24.33660998599006]
思考の連鎖(CoT)の合理化は、質問応答のようなタスクにおいて、LLMのパフォーマンスを継続的に改善することが示されている。
なぜ、この追加の訓練信号がモデルの蒸留にどのように役立つのか?
論文 参考訳(メタデータ) (2024-06-20T17:15:46Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。