論文の概要: Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2506.02867v2
- Date: Wed, 04 Jun 2025 15:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.555543
- Title: Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning
- Title(参考訳): 相互情報を用いた推論ダイナミクスのデミスティフィケーション--LLM推論における情報ピークを考える
- Authors: Chen Qian, Dongrui Liu, Haochen Wen, Zhen Bai, Yong Liu, Jing Shao,
- Abstract要約: 大規模推論モデル(LRM)は複雑な問題解決において顕著な能力を示したが、その内部の推論機構はよく理解されていない。
特定の生成段階におけるMIは, LRMの推論過程において, 突然, 顕著な増加を示す。
次に、これらのシンキングトークンがLRMの推論性能に不可欠であるのに対して、他のトークンは最小限の影響しか与えないことを示す。
- 参考スコア(独自算出の注目度): 33.040747962183076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have demonstrated impressive capabilities in complex problem-solving, yet their internal reasoning mechanisms remain poorly understood. In this paper, we investigate the reasoning trajectories of LRMs from an information-theoretic perspective. By tracking how mutual information (MI) between intermediate representations and the correct answer evolves during LRM reasoning, we observe an interesting MI peaks phenomenon: the MI at specific generative steps exhibits a sudden and significant increase during LRM's reasoning process. We theoretically analyze such phenomenon and show that as MI increases, the probability of model's prediction error decreases. Furthermore, these MI peaks often correspond to tokens expressing reflection or transition, such as ``Hmm'', ``Wait'' and ``Therefore,'' which we term as the thinking tokens. We then demonstrate that these thinking tokens are crucial for LRM's reasoning performance, while other tokens has minimal impacts. Building on these analyses, we propose two simple yet effective methods to improve LRM's reasoning performance, by delicately leveraging these thinking tokens. Overall, our work provides novel insights into the reasoning mechanisms of LRMs and offers practical ways to improve their reasoning capabilities. The code is available at https://github.com/ChnQ/MI-Peaks.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑な問題解決において顕著な能力を示したが、その内部の推論機構はよく理解されていない。
本稿では,情報理論の観点から,LRMの推論軌道について考察する。
中間表現と正解間の相互情報(MI)が, LRM推論の過程でどのように進化するかを追跡することで, 特定の生成段階におけるMIは, LRM推論過程において突然, 顕著に増加するという興味深いMIピーク現象を観察する。
理論的にそのような現象を解析し、MIが増加するにつれてモデルの予測誤差が減少することを示す。
さらに、これらのMIピークは「Hmm」や「Wait」や「Therefore」といった「シンキングトークン」といった「リフレクション」や「トランジション」を表すトークンに対応していることが多い。
次に、これらのシンキングトークンがLRMの推論性能に不可欠であるのに対して、他のトークンは最小限の影響しか与えないことを示す。
これらの分析に基づいて、これらの思考トークンを微妙に活用することにより、LEMの推論性能を改善するための2つの単純かつ効果的な方法を提案する。
全体として、我々の研究は、LEMの推論機構に関する新しい洞察を提供し、その推論能力を改善するための実践的な方法を提供する。
コードはhttps://github.com/ChnQ/MI-Peaks.comで公開されている。
関連論文リスト
- Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning [19.329523111916682]
大規模推論モデル(LRM)は複雑なタスクにおいてかなり高度な性能を持つが、非効率性を導入する傾向にある。
本研究では,Regress Learning (RL) 学習における内的メカニズムについて考察した。
論文 参考訳(メタデータ) (2025-05-21T08:55:35Z) - A Short Survey on Small Reasoning Models: Training, Inference, Applications and Research Directions [42.77077835885798]
大きな推論モデル(LRM)の推論能力は、ゆっくりとした思考プロセスを通じて著しく進歩している。
対照的に、より大きなものから蒸留される小さな推論モデル(SRM)は、より効率が高く、異なる能力を示すことができる。
論文 参考訳(メタデータ) (2025-04-12T06:45:57Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps [39.759594479826454]
入力推論チェーンの微妙なエラーに対するモデル推論の脆弱性について検討する。
この脆弱性は、操作された計算結果を含む推論トークンが提示されたモデルが正しい推論ステップを無視し、その代わりに誤った結果を採用する傾向がある。
我々の研究は、推論の堅牢性を理解することを強化し、推論集約アプリケーションに対するセキュリティ上の配慮を強調します。
論文 参考訳(メタデータ) (2025-03-25T03:43:11Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。