論文の概要: Therefore I am. I Think
- arxiv url: http://arxiv.org/abs/2604.01202v3
- Date: Fri, 03 Apr 2026 01:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 12:42:34.263088
- Title: Therefore I am. I Think
- Title(参考訳): 私はそう思う。
- Authors: Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani,
- Abstract要約: 我々は、早期に符号化された決定が推論モデルにおいてチェーン・オブ・シントを形成するという証拠を提示する。
単純な線形プローブは、ツールコール決定を、非常に高い信頼性で前世代のアクティベーションから復号することに成功した。
また、行動分析を通して、ステアリングが決定を変えると、チェーン・オブ・シント・プロセスはそれを抵抗するのではなく、しばしばフリップを合理化することを示した。
- 参考スコア(独自算出の注目度): 4.6150171317223805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.
- Abstract(参考訳): 大きな言語推論モデルが選択を下すとき、まず考え、次に決断し、次に決定し、次に考えるのか?
本稿では,予測可能な早期符号化決定が推論モデルにおいてチェーン・オブ・シントを形成する証拠を示す。
具体的には、単純な線形プローブは、ツールコール決定を、非常に高い信頼性で前世代のアクティベーションから復号し、場合によっては単一の推論トークンが生成される前にも確実に復号することを示す。
決定の方向を混乱させることで議論が膨らみ、多くの例で振る舞う(モデルやベンチマークによって7~79%)。
また、行動分析を通して、ステアリングが決定を変えると、チェーン・オブ・シント・プロセスはそれを抵抗するのではなく、しばしばフリップを合理化することを示した。
これらの結果は、推論モデルが意図的なテキスト化を始める前にアクション選択を符号化できることを示唆している。
関連論文リスト
- Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering [5.427346259545067]
CoT(Chain-of- Thought)は、大規模言語モデルにおける推論機能のスケーリングの中心となっている。
命令調整モデルがCoTを生成する前に解答を決定する場合が多いことを示す。
論文 参考訳(メタデータ) (2026-03-02T04:33:55Z) - Internal states before wait modulate reasoning patterns [14.272989515787351]
我々は、DeepSeek-R1-Distill-Llama-8Bの複数の層でクロスコーダを訓練し、クロスコーダ設定に潜時帰属技術を導入する。
待ちトークンの確率の促進と抑制に関係した機能の小さなセットを見つける。
同定された特徴の多くは、実際に推論プロセスに関連があることが示されています。
論文 参考訳(メタデータ) (2025-10-05T10:03:42Z) - Adversarial Manipulation of Reasoning Models using Internal Representations [1.308812559547533]
推論モデルは最終的な出力の前にチェーン・オブ・ソート(CoT)トークンを生成する。
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。
我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T20:51:32Z) - How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts? [35.00173704760055]
本研究では,4種類の不愉快な思考から推論モデルがどのように識別し,回復するかを検討する。
モデルは、最も無害な思考を特定するのに効果的であるが、それらが思考プロセスに注入されると、同じ思考から回復することが困難であることを示す。
論文 参考訳(メタデータ) (2025-06-12T17:59:53Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - Does Thinking More always Help? Mirage of Test-Time Scaling in Reasoning Models [130.5487886246353]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models [38.11937119873932]
推論モデルは、冗長な推論ステップを特徴とする過度な思考を示すことが多い。
我々は、入力問題によって引き起こされる内部バイアスを、そのような行動の鍵となる引き金とみなす。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。