論文の概要: Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.17813v1
- Date: Fri, 23 May 2025 12:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.062758
- Title: Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
- Title(参考訳): 考え直すな。LLM推論の改善のための短い思考連鎖を優先する
- Authors: Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz,
- Abstract要約: 大規模言語モデル(LLM)の推論は、複雑な推論タスクを実行するためにテスト時間計算のスケーリングに依存する。
個々の質問における短い推論連鎖が、正しい回答をもたらす可能性が著しく高いことを実証する。
次に、短いトレーニングがパフォーマンスの向上につながることを観察します。
- 参考スコア(独自算出の注目度): 45.807019099421225
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning large language models (LLMs) heavily rely on scaling test-time compute to perform complex reasoning tasks by generating extensive "thinking" chains. While demonstrating impressive results, this approach incurs significant computational costs and inference time. In this work, we challenge the assumption that long thinking chains results in better reasoning capabilities. We first demonstrate that shorter reasoning chains within individual questions are significantly more likely to yield correct answers - up to 34.5% more accurate than the longest chain sampled for the same question. Based on these results, we suggest short-m@k, a novel reasoning LLM inference method. Our method executes k independent generations in parallel and halts computation once the first m thinking processes are done. The final answer is chosen using majority voting among these m chains. Basic short-1@k demonstrates similar or even superior performance over standard majority voting in low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while slightly less efficient than short-1@k, consistently surpasses majority voting across all compute budgets, while still being substantially faster (up to 33% wall time reduction). Inspired by our results, we finetune an LLM using short, long, and randomly selected reasoning chains. We then observe that training on the shorter ones leads to better performance. Our findings suggest rethinking current methods of test-time compute in reasoning LLMs, emphasizing that longer "thinking" does not necessarily translate to improved performance and can, counter-intuitively, lead to degraded results.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論は、大規模な"思考"チェーンを生成することで複雑な推論タスクを実行するために、テスト時間計算のスケーリングに大きく依存している。
素晴らしい結果が得られた一方で、このアプローチは計算コストと推論時間に大きな影響を与えている。
この研究では、長い思考連鎖がより良い推論能力をもたらすという仮定に挑戦する。
我々はまず、個々の質問における短い推論連鎖が正しい答えを得る確率が著しく高く、同じ質問でサンプリングされた最も長い連鎖よりも最大34.5%正確であることを示した。
これらの結果に基づき,新しい推論法であるショートm@kを提案する。
本手法は,k個の独立世代を並列に実行し,最初のm個の思考プロセスが完了すると計算を停止する。
最後の答えは、これらのmチェーンの多数決によって選ばれる。
基本的なshort-1@kは、低計算量設定での標準多数決よりも、最大40%少ない思考トークンを使用して、類似またはさらに優れたパフォーマンスを示す。
short-3@k は short-1@k よりもわずかに効率が劣るが、一貫して全ての計算予算で過半数の投票を上回っている。
結果から着想を得て,短い,長い,ランダムに選択された推論鎖を用いてLLMを微調整した。
次に、短いトレーニングがパフォーマンスの向上につながることを観察します。
この結果から,LLMの推理におけるテスト時間計算の現在の手法の再考が示唆され,より長い「思考」が必ずしも性能向上に寄与せず,非意図的に結果の劣化につながることが示唆された。
関連論文リスト
- Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately [29.018731931275138]
大規模言語モデル(LLM)は、所定の要求に応答するChain-of-Thought推論を生成することで、より優れた機能を得ることができる。
しかし,2つのスケーリング次元を取り入れた場合,システム効率は2つの理由から著しく低下する。
本稿では,効率的なLLM推論のためのサービスフレームワークであるSARTについて述べる。
論文 参考訳(メタデータ) (2025-05-19T16:34:56Z) - Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning [68.02825465552779]
我々は、思考長を長く考えるLLMに対して、シンプルで効果的な方法であるThinkPruneを提案する。
AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長は、パフォーマンスがわずか2%低下しただけで半分削減できる。
論文 参考訳(メタデータ) (2025-04-02T01:59:26Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。