論文の概要: Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking
- arxiv url: http://arxiv.org/abs/2509.23392v1
- Date: Sat, 27 Sep 2025 16:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.201809
- Title: Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking
- Title(参考訳): 大規模な推論モデルをトレーニングして、再考をやめるモデル
- Authors: Jinyi Han, Ying Huang, Ying Liao, Zishang Jiang, Xikun Lu, Haiquan Zhao, Xinyi Wang, Guanghao Zhou, Sihang Jiang, Jiaqing Liang, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao,
- Abstract要約: 大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
- 参考スコア(独自算出の注目度): 50.97239453902612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have achieved impressive performance on challenging tasks, yet their deep reasoning often incurs substantial computational costs. To achieve efficient reasoning, existing reinforcement learning methods still struggle to construct short reasoning path during the rollout stage, limiting effective learning. Inspired by Evidence Accumulation Models, we find that LRMs have accumulated sufficient information early in reasoning, making further reasoning steps redundant. Based on this insight, we propose Just-Enough Thinking (JET), which trains models to proactively terminate unnecessary reasoning. JET performs trajectory truncation during rollout to expose the model to short, distributionally consistent reasoning paths. Besides, it uses a quality-controlled length reward to better encourage concise reasoning while maintaining correctness. Extensive experiments demonstrate that JET significantly improves reasoning efficiency without sacrificing accuracy. Especially, DeepSeek-Distill-Qwen-1.5B achieves a 4.6% accuracy gain while reducing output length by 46.3% on the Olympiad benchmark. Our code is available in the GitHub.
- Abstract(参考訳): 大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
効率的な推論を実現するために、既存の強化学習手法は、ロールアウト段階で短い推論経路を構築するのに苦慮し、効果的な学習を制限している。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
この知見に基づいて、不必要な推論を積極的に終了させるモデルを訓練するJust-Enough Thinking (JET)を提案する。
JETはロールアウト中にトラジェクトリトランケーションを実行し、モデルを短く、分布的に一貫した推論パスに公開する。
さらに、品質制御された長さの報酬を使用して、正確さを維持しながら簡潔な推論を奨励する。
大規模な実験により、JETは精度を犠牲にすることなく推論効率を大幅に改善することが示された。
特にDeepSeek-Distill-Qwen-1.5BはOlympiadベンチマークで出力長を46.3%削減し、精度が4.6%向上した。
私たちのコードはGitHubで入手可能です。
関連論文リスト
- CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - FlashThink: An Early Exit Method For Efficient Reasoning [2.1448740411847593]
大規模言語モデル(LLM)は、推論タスクにおいて素晴らしいパフォーマンスを示している。
LLMは、過度に長い推論内容を生成する傾向があり、計算オーバーヘッドが大きくなる。
我々は、モデルが推論を止め、正しい答えを提供することができる正確なタイミングを識別する検証モデルを導入する。
論文 参考訳(メタデータ) (2025-05-20T05:28:21Z) - Efficient RL Training for Reasoning Models via Length-Aware Optimization [104.97188611117353]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文 参考訳(メタデータ) (2025-05-18T07:46:43Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [16.407923457296235]
本研究では、推論モデルの隠れ表現に、推論の長さがどのように埋め込まれているかを検討する。
textbftextitThinkEditは、非常に短い推論の問題を軽減するために、シンプルだが効果的な重み編集手法である。
モデルのパラメータの0.2%にしか変更されないため、textbftextitThinkEditは、過剰に短い推論を減らし、顕著な精度向上をもたらす。
論文 参考訳(メタデータ) (2025-03-27T23:53:45Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。