論文の概要: Increasing the Thinking Budget is Not All You Need
- arxiv url: http://arxiv.org/abs/2512.19585v1
- Date: Mon, 22 Dec 2025 17:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.854818
- Title: Increasing the Thinking Budget is Not All You Need
- Title(参考訳): 思考予算の増加は必要なすべてではない
- Authors: Ignacio Iacobacci, Zhaozhi Qian, Faroq AL-Tam, Muhammad AL-Qurishi, Riad Souissi,
- Abstract要約: 思考予算と呼ばれる推論プロセスの長さの計算量がモデル性能に与える影響について検討する。
私たちのゴールは、パフォーマンスの成果と計算コストの両方を考慮に入れた、情報に富んだバランスの取れた比較フレームワークを提供することです。
- 参考スコア(独自算出の注目度): 28.216426469500547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a new wave of thinking-capable Large Language Models has emerged, demonstrating exceptional capabilities across a wide range of reasoning benchmarks. Early studies have begun to explore how the amount of compute in terms of the length of the reasoning process, the so-called thinking budget, impacts model performance. In this work, we propose a systematic investigation of the thinking budget as a key parameter, examining its interaction with various configurations such as self-consistency, reflection, and others. Our goal is to provide an informative, balanced comparison framework that considers both performance outcomes and computational cost. Among our findings, we discovered that simply increasing the thinking budget is not the most effective use of compute. More accurate responses can instead be achieved through alternative configurations, such as self-consistency and self-reflection.
- Abstract(参考訳): 最近、思考能力を持つ大規模言語モデルの新しい波が出現し、幅広い推論ベンチマークで例外的な能力を示している。
初期の研究は、推論プロセスの長さ、いわゆる思考予算の計算量がモデル性能にどのように影響するかを探求し始めている。
本研究では, 自己整合性, リフレクションなど, 様々な構成との相互作用を考察し, 思考予算を重要なパラメータとして体系的に検討することを提案する。
私たちのゴールは、パフォーマンスの成果と計算コストの両方を考慮に入れた、情報に富んだバランスの取れた比較フレームワークを提供することです。
その結果,思考予算の増大が最も有効な計算方法ではないことがわかった。
より正確な応答は、代わりに、自己整合性や自己回帰といった代替設定によって達成できる。
関連論文リスト
- Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Does Thinking More always Help? Mirage of Test-Time Scaling in Reasoning Models [130.5487886246353]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.85792055455284]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。
システム1推論は計算効率が良いが、最適以下の性能をもたらす。
システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文 参考訳(メタデータ) (2025-03-31T17:58:07Z) - Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies [24.875748056926213]
本稿では,計算予算を評価に組み込む枠組みを提案する。
複雑な推論戦略は、アルゴリズムの創発性のため、純粋に単純なベースラインを超えないことが多い。
自己整合性とは異なり、マルチエージェントの議論やリフレクションのような特定の戦略は、より多くの計算予算が利用されれば悪化する可能性がある。
論文 参考訳(メタデータ) (2024-06-10T16:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。