論文の概要: When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning
- arxiv url: http://arxiv.org/abs/2505.15276v1
- Date: Wed, 21 May 2025 08:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.400872
- Title: When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning
- Title(参考訳): 大規模推論モデルはいつ思考を救えるか? 推論における行動の多様性の力学解析
- Authors: Rongzhi Zhu, Yi Liu, Zequn Sun, Yiwei Wang, Wei Hu,
- Abstract要約: 大規模推論モデル(LRM)は複雑なタスクにおいてかなり高度な性能を持つが、非効率性を導入する傾向にある。
本研究では,Regress Learning (RL) 学習における内的メカニズムについて考察した。
- 参考スコア(独自算出の注目度): 19.329523111916682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) have significantly advanced performance on complex tasks, yet their tendency to overthink introduces inefficiencies. This study investigates the internal mechanisms of reinforcement learning (RL)-trained LRMs when prompted to save thinking, revealing three distinct thinking modes: no thinking (NT), explicit thinking (ET), and implicit thinking (IT). Through comprehensive analysis of confidence in thinking termination, attention from thinking to generation, and attentional focus on input sections, we uncover key factors influencing the reasoning behaviors. We further find that NT reduces output length at the cost of accuracy, while ET and IT maintain accuracy with reduced response length. Our findings expose fundamental inconsistencies in RL-optimized LRMs, necessitating adaptive improvements for reliable efficiency.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクにおいてかなり高度な性能を持つが、非効率性を導入する傾向にある。
本研究では,強化学習(RL)で学習したRTMの内部メカニズムを考察し,思考(NT),明示的思考(ET),暗黙的思考(IT)の3つの異なる思考モードを明らかにした。
思考終了に対する信頼度,思考から世代への注意,入力セクションへの注意といった総合的な分析を通じて,推論行動に影響を及ぼす重要な要因を明らかにする。
さらに,ETとITは応答長の低減を図り,NTは出力長を精度の面で削減する。
以上の結果から,RL最適化LEMの根本的不整合が明らかとなり,信頼性向上のための適応的改善が求められた。
関連論文リスト
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。