論文の概要: Nice Fold or Hero Call: Learning Budget-Efficient Thinking for Adaptive Reasoning
- arxiv url: http://arxiv.org/abs/2605.11625v1
- Date: Tue, 12 May 2026 06:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.643835
- Title: Nice Fold or Hero Call: Learning Budget-Efficient Thinking for Adaptive Reasoning
- Title(参考訳): ニッスフォールド(ニッスフォールド)とヒーローコール:適応推論のための予算効率の良い思考を学ぶ
- Authors: Zhaomeng Zhou, Lan Zhang, Junyang Wang, Mu Yuan, Junda Lin,
- Abstract要約: 大規模な推論モデル(LRM)は、拡張推論によって問題解決を改善するが、しばしばテスト時間計算を誤って配置する。
我々は,投資コストに配慮した報酬の下で,GRPOと行動開始を組み合わせた2段階の枠組みであるBudget-Efficient Thinking (BET)を提案する。
BETは、全体的なパフォーマンス改善を達成しながら、推論トークンを平均で55%削減する。
- 参考スコア(独自算出の注目度): 9.687158786222994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) improve problem solving through extended reasoning, but often misallocate test-time compute. Existing efficiency methods reduce cost by compressing reasoning traces or conditioning budget on perceived difficulty, yet largely overlook solvability. As a result, they may spend large budgets on queries beyond the model's capability while compressing hard-but-solvable queries that require deeper reasoning. In this work, we formulate adaptive reasoning as a computational investment under uncertainty, where budget should follow the expected return of reasoning rather than perceived difficulty alone. To instantiate this principle, we propose Budget-Efficient Thinking (BET), a two-stage framework that combines behavioral cold-start with GRPO under an investment-cost-aware reward. By aligning solve-or-fold decisions with rollout-derived solvability, BET learns three behaviors: (1) short solve, answering easy queries concisely; (2) nice fold, abstaining early when continued reasoning has near-zero expected return; and (3) hero call, preserving sufficient compute for hard-but-solvable queries. Across seven benchmarks and three base models, BET reduces reasoning tokens by ~55% on average while achieving overall performance improvements, and transfers zero-shot from mathematical reasoning to scientific QA and logical reasoning with comparable efficiency gains.
- Abstract(参考訳): 大規模な推論モデル(LRM)は、拡張推論によって問題解決を改善するが、しばしばテスト時間計算を誤って配置する。
既存の効率の手法は、推理トレースや条件付け予算を認識困難に圧縮することでコストを削減するが、ほとんどは解決性を見落としている。
結果として、より深い推論を必要とする難しいが解決可能なクエリを圧縮しながら、モデルの能力を超えるクエリに多大な予算を費やすことができる。
本研究では、不確実性の下での計算投資として適応推論を定式化し、予算は難易度のみを認識するのではなく、予想される推論の返却に従うべきである。
この原理をインスタンス化するために、投資コストに配慮した報酬の下で、行動開始とGRPOを組み合わせた2段階の枠組みであるBudget-Efficient Thinking (BET)を提案する。
解答または折り畳み決定をロールアウト由来の可解性と整合させることで、BETは、(1)簡潔な解答、簡単なクエリの簡潔な解答、(2)良い折りたたみ、継続する推論が期待されるリターンがゼロに近い場合の早期の棄却、(3)ヘロコール、そして、ハードだが解決可能なクエリのための十分な計算を保存する、という3つの行動を学ぶ。
7つのベンチマークと3つのベースモデルで、BETは推論トークンを平均で55%削減し、全体的なパフォーマンス改善を実現し、数学的推論から科学的QAへのゼロショットを、同等の効率向上を伴う論理的推論に転送する。
関連論文リスト
- Avoiding Overthinking and Underthinking: Curriculum-Aware Budget Scheduling for LLMs [1.7499351967216341]
BCAE(Budget-Adaptive Curriculum Reasoning)は、推論品質とトークン効率を共同で最適化する統合フレームワークである。
BCAEには、Emphbudget-conditioned unified policy、Emphcurriculum-aware budget scheduler、Emphtruncation-aware dense reward mechanismが含まれる。
論文 参考訳(メタデータ) (2026-03-29T18:31:09Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition [11.094392304740134]
我々は,厳密なグローバルトークン制約の下で,複数のタスクに対する予算付き推論時間推論について検討した。
この視点はメタ認知的要件を強調し、タスクの難しさを予測し、投資よりもリターンを推定する。
2段階のフレームワークであるROI-Reasoningを提案する。
論文 参考訳(メタデータ) (2026-01-07T11:30:55Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model [7.8354921036790275]
大きな推論モデル(LRM)は複雑な問題を解決するのに優れているが、過度なジレンマに直面している。
単純なタスクを扱う場合、思考トークンがオーバーロードされた冗長なレスポンスを生成することが多い。
これらのトークンは、リフレクションやバックトラックのような不要な高レベルの推論動作を引き起こし、効率を低下させる。
論文 参考訳(メタデータ) (2025-06-30T13:30:33Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。