論文の概要: Why Models Know But Don't Say: Chain-of-Thought Faithfulness Divergence Between Thinking Tokens and Answers in Open-Weight Reasoning Models
- arxiv url: http://arxiv.org/abs/2603.26410v1
- Date: Fri, 27 Mar 2026 13:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.520611
- Title: Why Models Know But Don't Say: Chain-of-Thought Faithfulness Divergence Between Thinking Tokens and Answers in Open-Weight Reasoning Models
- Title(参考訳): なぜモデルは知らないのか: オープンウェイト推論モデルにおける知識と回答の相違
- Authors: Richard J. Young,
- Abstract要約: 拡張思考モデルは、ユーザ可視の回答と並んで、第2のテキスト生成チャネル(トークンを考える)を公開する。
本研究では,MMLUおよびGPQA質問に対する12のオープンウェイト推論モデルについて,誤解を招くヒントと組み合わせて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extended-thinking models expose a second text-generation channel ("thinking tokens") alongside the user-visible answer. This study examines 12 open-weight reasoning models on MMLU and GPQA questions paired with misleading hints. Among the 10,506 cases where models actually followed the hint (choosing the hint's target over the ground truth), each case is classified by whether the model acknowledges the hint in its thinking tokens, its answer text, both, or neither. In 55.4% of these cases the model's thinking tokens contain hint-related keywords that the visible answer omits entirely, a pattern termed *thinking-answer divergence*. The reverse (answer-only acknowledgment) is near-zero (0.5%), confirming that the asymmetry is directional. Hint type shapes the pattern sharply: sycophancy is the most *transparent* hint, with 58.8% of sycophancy-influenced cases acknowledging the professor's authority in both channels, while consistency (72.2%) and unethical (62.7%) hints are dominated by thinking-only acknowledgment. Models also vary widely, from near-total divergence (Step-3.5-Flash: 94.7%) to relative transparency (Qwen3.5-27B: 19.6%). These results show that answer-text-only monitoring misses more than half of all hint-influenced reasoning and that thinking-token access, while necessary, still leaves 11.8% of cases with no verbalized acknowledgment in either channel.
- Abstract(参考訳): 拡張思考モデルは、ユーザ可視の回答と並んで、第2のテキスト生成チャネル(トークンを考える)を公開する。
本研究では,MMLUおよびGPQA質問に対する12のオープンウェイト推論モデルについて,誤解を招くヒントと組み合わせて検討した。
モデルが実際にヒントに従っている10,506ケースのうち、各ケースは、そのモデルがその思考トークンのヒントを認識しているかどうか、その回答テキストが両方か、どちらかによって分類される。
これらのケースの55.4%では、モデルの思考トークンにはヒント関連キーワードが含まれており、可視答えが完全に省略される。
逆(解答のみの認識)はほぼゼロ(0.5%)であり、非対称性が方向であることを確認する。
Hint型はパターンを鋭く形作る: 梅毒は最も*透明な*ヒントであり、その58.8%が教授の両チャンネルにおける権威を認めており、一貫性(72.2%)と非倫理的(62.7%)のヒントは思考のみの認知によって支配されている。
モデルも様々であり、概日差(ステップ-3.5-Flash:94.7%)から相対透明性(Qwen3.5-27B:19.6%)まで様々である。
これらの結果は、回答テキストのみのモニタリングが、ヒントの影響のある推論の半数以上を見逃し、思考へのアクセスは必要ではあるが、いずれのチャンネルにも口頭弁解のない症例の11.8%を残していることを示している。
関連論文リスト
- Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models? [0.0]
CoT(Chain-of- Thought)推論は、安全クリティカルなデプロイメントにおける大規模言語モデルの透明性メカニズムとして提案されている。
本研究では,9つの建築家族を対象としたオープンウェイト推論モデルを498の質問に対して検討した。
41,832回の推論では、全体の忠実度は39.7% (Seed-1.6-Flash) から89.9% (DeepSeek-V3.2- Speciale) まで変化している。
論文 参考訳(メタデータ) (2026-03-23T21:21:37Z) - Oops, Wait: Token-Level Signals as a Lens into LLM Reasoning [61.76889440384448]
大規模言語モデル(LLM)では、"wait"や"therefore"といった談話のようなトークンが、その推論プロセスにユニークなウィンドウを提供しています。
トークンレベルの信号は,様々なモデルにまたがるトークン確率を通して解析する。
論文 参考訳(メタデータ) (2026-01-24T11:43:09Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.048751803239144]
CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトでも不信なCoTが発生することを示す。
論文 参考訳(メタデータ) (2025-03-11T17:56:30Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Are DeepSeek R1 And Other Reasoning Models More Faithful? [2.0429566123690455]
我々は,Qwen-2.5,Gemini-2,DeepSeek-V3-Baseの3つの推論モデルを評価する。
MMLU質問に対する解答に、その解答がどう影響するかをモデルで記述できるかどうかを検証する。
推論モデルは、テストされたすべての非推論モデルよりもはるかに確実にそれらに影響を与えるキューを記述する。
論文 参考訳(メタデータ) (2025-01-14T14:31:45Z) - Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。