論文の概要: Reasoning Traces Shape Outputs but Models Won't Say So
- arxiv url: http://arxiv.org/abs/2603.20620v1
- Date: Sat, 21 Mar 2026 03:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.99954
- Title: Reasoning Traces Shape Outputs but Models Won't Say So
- Title(参考訳): 形状のアウトプットをリ推論するが、モデルではそうは言わない
- Authors: Yijie Hao, Lingjie Chen, Ali Emami, Joyce Ho,
- Abstract要約: 我々は、モデル思考に合成推論スニペットを注入するThought Injectionを紹介した。
インジェクションされたヒントは出力を確実に変更し、推論が因果的なモデル挙動を辿ることを確認する。
変更した回答を説明するように頼まれると、モデルは圧倒的に影響を明らかにしません。
- 参考スコア(独自算出の注目度): 11.928107300132062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we trust the reasoning traces that large reasoning models (LRMs) produce? We investigate whether these traces faithfully reflect what drives model outputs, and whether models will honestly report their influence. We introduce Thought Injection, a method that injects synthetic reasoning snippets into a model's <think> trace, then measures whether the model follows the injected reasoning and acknowledges doing so. Across 45,000 samples from three LRMs, we find that injected hints reliably alter outputs, confirming that reasoning traces causally shape model behavior. However, when asked to explain their changed answers, models overwhelmingly refuse to disclose the influence: overall non-disclosure exceeds 90% for extreme hints across 30,000 follow-up samples. Instead of acknowledging the injected reasoning, models fabricate aligned-appearing but unrelated explanations. Activation analysis reveals that sycophancy- and deception-related directions are strongly activated during these fabrications, suggesting systematic patterns rather than incidental failures. Our findings reveal a gap between the reasoning LRMs follow and the reasoning they report, raising concern that aligned-appearing explanations may not be equivalent to genuine alignment.
- Abstract(参考訳): 大きな推論モデル(LRM)が生み出す推論の痕跡を信頼できますか?
これらのトレースがモデル出力を駆動する要因を忠実に反映するかどうか、モデルがその影響を正直に報告するかどうかについて検討する。
Thought Injectionは、モデルの<think>トレースに合成推論スニペットを注入し、モデルが注入された推論に従うかどうかを測定し、それを認める。
3つのLRMから得られた45,000サンプルのうち、インジェクションされたヒントが出力を確実に変化させ、推論が因果的なモデル挙動を辿ることを確認する。
しかし、変更した回答を説明するよう依頼されたとき、モデルは圧倒的にその影響を開示することを拒否した。
注入された推論を認識する代わりに、モデルは整列して現れるが、無関係な説明を作る。
アクティベーション分析により、これらの製造において、梅毒や偽りに関連する方向が強く活性化され、偶発的な失敗よりも体系的なパターンが示唆されることが明らかとなった。
以上の結果から, LRM が後続する理由と報告する理由とのギャップが指摘され, 一致した説明が真のアライメントと同等でないのではないかという懸念が浮き彫りにされた。
関連論文リスト
- How to Steal Reasoning Without Reasoning Traces [11.96740610715437]
多くの大規模言語モデル(LLM)は、応答を生成するために推論を使用するが、完全な推論トレースは明らかにしない。
対象モデルに露出した要約を入力,回答,(任意に)推論するのみを与えられたトレースインバージョンモデルを導入し,詳細な合成推論トレースを生成する。
論文 参考訳(メタデータ) (2026-03-07T15:50:44Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Distortion Instead of Hallucination: The Effect of Reasoning Under Strict Constraints [0.0]
推論能力は、出力信頼性を向上させる自己検証プロセスとして注目されている。
厳密な制約の下で実験を行い、複数のモデルにまたがる推論の効果を調べる。
この結果から,制約遵守と事実的正確性とのトレードオフが明らかとなった。
論文 参考訳(メタデータ) (2026-01-04T11:35:39Z) - Thought Branches: Interpreting LLM Reasoning Requires Resampling [10.978878422025232]
一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。
モデル決定のための再サンプリングを用いたケーススタディを提案する。
論文 参考訳(メタデータ) (2025-10-31T14:02:37Z) - The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLMs [2.583082967853897]
その結果,ほとんどのフロンティア推論モデルで動機付け推論が検出できることがわかった。
モデルが高度化するにつれて、モニターが検出することがますます困難になる可能性がある。
論文 参考訳(メタデータ) (2025-10-20T00:24:08Z) - From Reasoning to Answer: Empirical, Attention-Based and Mechanistic Insights into Distilled DeepSeek R1 Models [48.01707022738742]
蒸留した3種類のDeepSeek R1モデルにおいて、推論と回答生成の相互作用を3段階に分けて検討する。
明示的な推論を含めることで、さまざまな領域での回答品質が一貫して向上することを示す。
以上の結果から,重要な推論トークンに対する摂動が最終回答を確実に変更できることが示唆された。
論文 参考訳(メタデータ) (2025-09-28T06:32:21Z) - Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models [38.11937119873932]
推論モデルは、冗長な推論ステップを特徴とする過度な思考を示すことが多い。
我々は、入力問題によって引き起こされる内部バイアスを、そのような行動の鍵となる引き金とみなす。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。