論文の概要: BARD: budget-aware reasoning distillation
- arxiv url: http://arxiv.org/abs/2511.01470v1
- Date: Mon, 03 Nov 2025 11:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.242666
- Title: BARD: budget-aware reasoning distillation
- Title(参考訳): バード-予算に配慮した蒸留法
- Authors: Lujie Niu, Lei Shen, Yi Jiang, Caixia Yuan, Xiaojie Wang, Wenbo Su, Bo zheng,
- Abstract要約: ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 蒸留は推論能力をより小さな言語モデルに効果的に伝達する。
bftextBudget-Aware Reasoning Distillation (BARD) を提案する。
- 参考スコア(独自算出の注目度): 25.725960386304646
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While long Chain-of-Thought (CoT) distillation effectively transfers reasoning capability to smaller language models, the reasoning process often remains redundant and computational budget uncontrollable, leading to inefficient resource usage. To address this limitation, we propose \textbf{Budget-Aware Reasoning Distillation (BARD)}, a novel framework that simultaneously distills reasoning capability and enables fine-grained control over the reasoning length. BARD uses the thinking budget as a user-specified control signal, allowing the model to dynamically balance reasoning performance and computational efficiency. To achieve this concept, BARD introduces a two-phase training regimen. The first phase, Supervised Fine-Tuning (SFT) on teacher-generated long CoT data compressed to various budget levels, bootstrapping the model's understanding of budget constraints. The second phase leverages Reinforcement Learning (RL) from a reward signal in consideration of reasoning performance and budget fidelity simultaneously. Incorporating the two-phase regimen is crucial to avoiding policy degradation and ensuring that both objectives are optimized jointly. Extensive experiments demonstrate that our method empowers an 8B student model to achieve strong performance on challenging reasoning benchmarks (\textit{AIME24, AIME25, GPQA}) while providing precise and adaptive control over its reasoning length across a wide range of budgets.
- Abstract(参考訳): 長いチェーン・オブ・ソート(CoT)蒸留は推論能力をより小さな言語モデルに効果的に転送するが、推論プロセスは冗長であり、計算予算は制御不能であり、非効率な資源使用につながる。
この制限に対処するために、推論能力を同時に蒸留し、推論長のきめ細かい制御を可能にする新しいフレームワークである「textbf{Budget-Aware Reasoning Distillation (BARD)」を提案する。
BARDは思考予算をユーザ指定制御信号として使用し、推論性能と計算効率を動的にバランスさせる。
この概念を実現するため、BARDは2段階のトレーニングレギュレーションを導入した。
第1フェーズでは教師が作成した長いCoTデータを様々な予算レベルに圧縮し、モデルの予算制約に対する理解をブートストラップした。
第2フェーズでは、推論性能と予算忠実度を同時に考慮し、報酬信号から強化学習(RL)を利用する。
二段階体制を組み込むことは、政策の悪化を回避し、両方の目的が共同で最適化されることを保証するために不可欠である。
大規模な実験により,提案手法は8B の学生モデルに対して,様々な予算で推論長を精度よく適応的に制御しながら,挑戦的推論ベンチマーク (\textit{AIME24, AIME25, GPQA}) で高い性能を達成することができることを示した。
関連論文リスト
- BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens [33.607723102172194]
BudgetThinkerは、予算を考慮した推論で大規模言語モデルを強化するために設計されたフレームワークである。
我々は、BudgetThinkerが、様々な推論予算におけるパフォーマンス維持において、強力なベースラインをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2025-08-24T03:17:50Z) - LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文 参考訳(メタデータ) (2025-07-21T16:14:41Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [43.91094438704087]
SelfBudgeterは、アダプティブな制御可能な推論フレームワークで、推論の前に予算推定メカニズムを組み込む。
本稿では,問題複雑度に応じて予算を動的に割り当てることにより,平均応答長61%の圧縮が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。