論文の概要: ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2504.21370v1
- Date: Wed, 30 Apr 2025 07:04:19 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:55:17.233941
- Title: ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning
- Title(参考訳): ShorterBetter: 効率的な推論に最適な推論長を求めるための推論モデル
- Authors: Jingyang Yi, Jiazheng Wang,
- Abstract要約: OpenAI o3やDeepSeek-R1のような推論モデルは、推論集約的なタスクに対して強力なパフォーマンスを示している。
長い推論トレースは、複雑な問題に対する解経路のより徹底的な探索を促進する。
ShorterBetterは、推論言語モデルによる最適なCoT長の発見を可能にする、シンプルで効果的な強化学習手法である。
- 参考スコア(独自算出の注目度): 1.170732359523702
- License:
- Abstract: Reasoning models such as OpenAI o3 and DeepSeek-R1 have demonstrated strong performance on reasoning-intensive tasks through extended Chain-of-Thought (CoT) prompting. While longer reasoning traces can facilitate a more thorough exploration of solution paths for complex problems, researchers have observed that these models often "overthink", leading to inefficient inference. In this paper, we introduce ShorterBetter, a simple yet effective reinforcement learning methed that enables reasoning language models to discover their own optimal CoT lengths without human intervention. By sampling multiple outputs per problem and defining the Sample Optimal Length (SOL) as the shortest correct response among all the outputs, our method dynamically guides the model toward optimal inference lengths. Applied to the DeepSeek-Distill-Qwen-1.5B model, ShorterBetter achieves up to an 80% reduction in output length on both in-domain and out-of-domain reasoning tasks while maintaining accuracy. Our analysis shows that overly long reasoning traces often reflect loss of reasoning direction, and thus suggests that the extended CoT produced by reasoning models is highly compressible.
- Abstract(参考訳): OpenAI o3やDeepSeek-R1のような推論モデルは、拡張Chain-of-Thought(CoT)のプロンプトを通じて、推論集約的なタスクに対して強力なパフォーマンスを示している。
長い推論トレースは複雑な問題に対する解の経路をより徹底的に探究するのに役立つが、研究者はこれらのモデルがしばしば「過大な考え」であり、非効率な推論につながることを発見している。
本稿では,人間の介入なしに言語モデルから最適なCoT長を見つけることができる簡易かつ効果的な強化学習法であるShorterBetterを紹介する。
問題ごとの複数の出力をサンプリングし、全ての出力の中で最短の正解としてサンプル最適長(SOL)を定義することにより、最適な推論長に向けてモデルを動的に誘導する。
DeepSeek-Distill-Qwen-1.5Bモデルに適用されるShorterBetterは、精度を維持しながら、ドメイン内およびドメイン外推論タスクの出力長を最大80%削減する。
解析の結果,理論モデルが生成するCoTの延長は極めて圧縮性が高いことが示唆された。
関連論文リスト
- Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance [33.16322104912836]
大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。
LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。
人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
論文 参考訳(メタデータ) (2025-04-13T14:12:14Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。