論文の概要: Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2502.18080v1
- Date: Tue, 25 Feb 2025 10:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:22.244023
- Title: Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning
- Title(参考訳): LLM推論のためのテスト時間計算の最適スケーリングに向けて
- Authors: Wenkai Yang, Shuming Ma, Yankai Lin, Furu Wei,
- Abstract要約: 近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
- 参考スコア(独自算出の注目度): 113.49074603075032
- License:
- Abstract: Recent studies have shown that making a model spend more time thinking through longer Chain of Thoughts (CoTs) enables it to gain significant improvements in complex reasoning tasks. While current researches continue to explore the benefits of increasing test-time compute by extending the CoT lengths of Large Language Models (LLMs), we are concerned about a potential issue hidden behind the current pursuit of test-time scaling: Would excessively scaling the CoT length actually bring adverse effects to a model's reasoning performance? Our explorations on mathematical reasoning tasks reveal an unexpected finding that scaling with longer CoTs can indeed impair the reasoning performance of LLMs in certain domains. Moreover, we discover that there exists an optimal scaled length distribution that differs across different domains. Based on these insights, we propose a Thinking-Optimal Scaling strategy. Our method first uses a small set of seed data with varying response length distributions to teach the model to adopt different reasoning efforts for deep thinking. Then, the model selects its shortest correct response under different reasoning efforts on additional problems for self-improvement. Our self-improved models built upon Qwen2.5-32B-Instruct outperform other distillation-based 32B o1-like models across various math benchmarks, and achieve performance on par with QwQ-32B-Preview.
- Abstract(参考訳): 近年の研究では、モデルがより長い思考の連鎖(CoT)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
現在の調査では、大規模な言語モデル(LLM)のCoT長を拡張することで、テスト時の計算量を増やすことのメリットを探求していますが、テスト時のスケーリングを追求している背景にある潜在的な問題について懸念しています。
数学的推論タスクの探索では、長いCoTによるスケーリングが、特定の領域におけるLLMの推論性能を損なう可能性があるという予期せぬ発見が明らかになった。
さらに,異なる領域で異なる最適なスケール長分布が存在することが判明した。
これらの知見に基づいて、シンキング・最適スケーリング戦略を提案する。
提案手法はまず, 応答長の異なる種子データを用いて, 深層思考に異なる推論手法を適用するようにモデルに教える。
そして、自己改善のための追加問題に対する異なる推論の取り組みの下で、モデルが最短の正解を選択する。
Qwen2.5-32B-Instructで構築した自己改善型モデルは、様々なベンチマークベンチマークで他の蒸留ベースの32B o1-likeモデルより優れており、QwQ-32B-Previewと同等のパフォーマンスを実現している。
関連論文リスト
- Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - Trading Inference-Time Compute for Adversarial Robustness [27.514612815314084]
我々は、推論モデルにおける推論時間計算の増加が敵攻撃に対する堅牢性に与える影響について実験を行った。
さまざまな攻撃において、推論時間の増大はロバスト性の向上につながることが分かっています。
論文 参考訳(メタデータ) (2025-01-31T01:20:44Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation [34.042565099565934]
そこで本研究では,抽象的な計画を通じてモデルを整理し,構成ステップを生成するための計画ベーストレーニングと推論手法を提案する。
その結果,CoTデータを直接微調整した場合と比較して,ボトルネックの緩和に優れた性能が得られた。
論文 参考訳(メタデータ) (2024-10-22T08:38:50Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。