論文の概要: SABER: Switchable and Balanced Training for Efficient LLM Reasoning
- arxiv url: http://arxiv.org/abs/2508.10026v1
- Date: Fri, 08 Aug 2025 11:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.0225
- Title: SABER: Switchable and Balanced Training for Efficient LLM Reasoning
- Title(参考訳): SABER: 効率的なLDM推論のためのスイッチングおよびバランスの取れたトレーニング
- Authors: Kai Zhao, Yanjun Zhao, Jiaming Song, Shien He, Lusheng Zhang, Qiang Zhang, Tianjiao Li,
- Abstract要約: 大言語モデル(LLM)は、複雑なタスクにおいて、チェーン・オブ・シークレット推論によって強化され、印象的な精度を達成している。
しかし、すべての問題に一様に適用されると、過剰な推論コストとレイテンシに悩まされる。
本稿では,LSMにユーザ制御可能なトークン予算推論を付与する強化学習フレームワークであるSABERを提案する。
- 参考スコア(独自算出の注目度): 33.99585074045295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) empowered by chain-of-thought reasoning have achieved impressive accuracy on complex tasks but suffer from excessive inference costs and latency when applied uniformly to all problems. We propose SABER (Switchable and Balanced Training for Efficient LLM Reasoning), a reinforcement learning framework that endows LLMs with user-controllable, token-budgeted reasoning. SABER first profiles each training example's base-model thinking token usage and assigns it to one of the predefined budget tiers. During fine-tuning, the model is guided by system prompts and length-aware rewards to respect its assigned budget. In parallel, we incorporate no-think examples to ensure the model remains reliable even when explicit reasoning is turned off. SABER further supports four discrete inference modes - NoThink, FastThink, CoreThink, and DeepThink, enabling flexible trade-offs between latency and reasoning depth. Extensive evaluations on math reasoning (MATH, GSM8K), code generation (MBPP), and logical reasoning (LiveBench-Reasoning) demonstrate that SABER achieves high accuracy under tight budgets, graceful degradation, and effective cross-scale and cross-domain generalization. In particular, SABER-FastThink cuts reasoning length by 65.4% and yields a 3.6% accuracy gain compared with the base model on the MATH benchmark.
- Abstract(参考訳): 大規模言語モデル (LLM) は、複雑なタスクにおいて顕著な精度を達成しているが、全ての問題に一様に適用した場合、過度な推論コストと遅延に悩まされている。
ユーザ制御型トークン予算推論でLLMを実現する強化学習フレームワークであるSABER(Switchable and Balanced Training for Efficient LLM Reasoning)を提案する。
SABERはまず、各トレーニング例のベースモデル思考トークンの使用状況をプロファイルし、事前に定義された予算階層の1つに割り当てる。
微調整の間、モデルは割り当てられた予算を尊重するためにシステムプロンプトと長さ対応の報酬によって導かれる。
並行して、明示的な推論がオフになってもモデルが信頼性を保つために、考えのない例を取り入れる。
SABERはさらに、NoThink、FastThink、CoreThink、DeepThinkの4つの個別推論モードをサポートし、レイテンシと推論深度の間の柔軟なトレードオフを可能にする。
数学推論 (MATH, GSM8K), コード生成 (MBPP), 論理推論 (LiveBench-Reasoning) の広範囲な評価は, SABERが厳格な予算,優雅な劣化, 効果的なクロススケールおよびクロスドメインの一般化の下で高い精度を達成することを示した。
特に、SABER-FastThinkは推論長を65.4%削減し、MATHベンチマークのベースモデルと比較すると3.6%の精度向上が得られる。
関連論文リスト
- FairReason: Balancing Reasoning and Social Bias in MLLMs [50.618158642714505]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [29.64638547097158]
SelfBudgeterは、効率的な推論のための自己適応的な制御可能な推論戦略である。
提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。
実験の結果、自己予算は問題複雑さに応じて合理的に予算を割り当てることができることが示された。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。