論文の概要: Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
- arxiv url: http://arxiv.org/abs/2506.07240v1
- Date: Sun, 08 Jun 2025 17:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.0926
- Title: Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
- Title(参考訳): オーバークロックLDM推論:LLMにおける思考経路長のモニタリングと制御
- Authors: Roy Eisenstadt, Itamar Zimerman, Lior Wolf,
- Abstract要約: 回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
- 参考スコア(独自算出の注目度): 52.663816303997194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, techniques such as explicit structured reasoning have demonstrated strong test-time scaling behavior by enforcing a separation between the model's internal "thinking" process and the final response. A key factor influencing answer quality in this setting is the length of the thinking stage. When the reasoning is too short, the model may fail to capture the complexity of the task. Conversely, when it is too long, the model may overthink, leading to unnecessary computation and degraded performance. This paper explores and exploits the underlying mechanisms by which LLMs understand and regulate the length of their reasoning during explicit thought processes. First, we show that LLMs encode their progress through the reasoning process and introduce an interactive progress bar visualization, which is then used to reveal insights on the model's planning dynamics. Second, we manipulate the internal progress encoding during inference to reduce unnecessary steps and generate a more concise and decisive chain of thoughts. Our empirical results demonstrate that this "overclocking" method mitigates overthinking, improves answer accuracy, and reduces inference latency. Our code is publicly available.
- Abstract(参考訳): 近年、明示的な構造化推論のような手法は、モデルの内部の「思考」プロセスと最終的な応答を分離することで、テスト時間スケーリングの強い振る舞いを示している。
この設定における回答の品質に影響を与える重要な要因は、思考段階の長さである。
推論が短すぎると、モデルはタスクの複雑さを捉えるのに失敗する可能性がある。
逆に、時間が過ぎると、モデルは過大評価され、不要な計算と性能が低下する。
本稿では、LLMが明示的な思考過程における推論の長さを理解し、制御するメカニズムを探求し、活用する。
まず、LLMが推論プロセスを通じて進捗をエンコードし、インタラクティブな進行バービジュアライゼーションを導入し、モデルの計画力学に関する洞察を明らかにする。
第二に、推論中の内部プログレスエンコーディングを操作し、不要なステップを減らし、より簡潔で決定的な思考連鎖を生成する。
実験の結果,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減させることがわかった。
私たちのコードは公開されています。
関連論文リスト
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。