論文の概要: Avoiding Overthinking and Underthinking: Curriculum-Aware Budget Scheduling for LLMs
- arxiv url: http://arxiv.org/abs/2604.19780v1
- Date: Sun, 29 Mar 2026 18:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.071756
- Title: Avoiding Overthinking and Underthinking: Curriculum-Aware Budget Scheduling for LLMs
- Title(参考訳): 再考の回避と再考:LCMのためのカリキュラム対応予算計画
- Authors: Amirul Rahman, Aisha Karim, Kenji Nakamura, Yi-Fan Ng,
- Abstract要約: BCAE(Budget-Adaptive Curriculum Reasoning)は、推論品質とトークン効率を共同で最適化する統合フレームワークである。
BCAEには、Emphbudget-conditioned unified policy、Emphcurriculum-aware budget scheduler、Emphtruncation-aware dense reward mechanismが含まれる。
- 参考スコア(独自算出の注目度): 1.7499351967216341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling test-time compute via extended reasoning has become a key paradigm for improving the capabilities of large language models (LLMs). However, existing approaches optimize reasoning under fixed or uniformly sampled token budgets, ignoring the fundamental mismatch between problem difficulty and allocated compute. This leads to overthinking on easy problems and underthinking on hard ones, resulting in suboptimal token efficiency across diverse reasoning scenarios. In this paper, we propose Budget-Adaptive Curriculum Reasoning (BCAE), a unified framework that jointly optimizes reasoning quality and token efficiency through three synergistic components: (1) a \emph{budget-conditioned unified policy} that embeds the token budget as a continuous conditioning signal, eliminating the need for decoupled thinking and summarization strategies; (2) a \emph{curriculum-aware budget scheduler} that adaptively shifts the training budget distribution from easy to hard problems based on real-time learning progress; and (3) a \emph{truncation-aware dense reward} mechanism that provides fine-grained credit assignment at intermediate reasoning steps via process-level verification. We further introduce \emph{Budget-Conditioned Advantage Estimation} (BCAE), a novel variance reduction technique that conditions the advantage baseline on the sampled budget, yielding more stable policy gradients. Experiments on mathematical reasoning benchmarks (MATH, GSM8K, AIME, and Minerva Math) demonstrate that BACR consistently outperforms other strong baselines across all token budgets, achieving up to 8.3\% accuracy improvement under tight budgets while reducing average token consumption by 34\% compared to unconstrained reasoning.
- Abstract(参考訳): 拡張推論によるテスト時間計算のスケーリングは、大規模言語モデル(LLM)の能力を改善するための重要なパラダイムとなっている。
しかし、既存のアプローチでは、固定されたまたは一様にサンプリングされたトークンの予算の下での推論を最適化し、問題の難しさと割り当てられた計算との根本的なミスマッチを無視している。
これにより、簡単な問題を過度に考え、難しい問題を過度に考え、さまざまな推論シナリオにまたがって最適なトークン効率をもたらす。
本稿では,(1) トークン予算を連続的条件付け信号として組み込み,デカップリングされた思考と要約戦略の必要性を排除した,(2) トレーニング予算の分散を,リアルタイム学習の進歩に基づく難易度から難易度に適応的にシフトさせる,(3) プロセス検証による推論段階における微粒なクレジット代入を提供する,3つの相乗的コンポーネントを通じて,推論品質とトークン効率を共同で最適化する統合フレームワークである,予算適応型カリキュラム推論(BCAE)を提案する。
さらに、サンプル予算に有利な基準条件を定め、より安定した政策勾配をもたらす新しい分散還元手法である \emph{Budget-Conditioned Advantage Estimation} (BCAE) を導入する。
数学的推論ベンチマーク(MATH、GSM8K、AIME、Minerva Math)の実験では、BACRは全てのトークン予算で一貫して他の強力なベースラインよりも優れており、厳密な予算下では最大8.3倍の精度向上を実現し、制約のない推論に比べて平均トークン消費を34倍削減している。
関連論文リスト
- Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-16T07:09:30Z) - ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition [11.094392304740134]
我々は,厳密なグローバルトークン制約の下で,複数のタスクに対する予算付き推論時間推論について検討した。
この視点はメタ認知的要件を強調し、タスクの難しさを予測し、投資よりもリターンを推定する。
2段階のフレームワークであるROI-Reasoningを提案する。
論文 参考訳(メタデータ) (2026-01-07T11:30:55Z) - BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens [33.607723102172194]
BudgetThinkerは、予算を考慮した推論で大規模言語モデルを強化するために設計されたフレームワークである。
我々は、BudgetThinkerが、様々な推論予算におけるパフォーマンス維持において、強力なベースラインをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2025-08-24T03:17:50Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。