Fugu-MT 論文翻訳(概要): SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

論文の概要: SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

arxiv url: http://arxiv.org/abs/2505.11274v1
Date: Fri, 16 May 2025 14:08:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:15.190733
Title: SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning
Title（参考訳）: SelfBudgeter: 効率的なLDM推論のための適応的なトークン割り当て
Authors: Zheng Li, Qingxiu Dong, Jingyuan Ma, Di Zhang, Zhifang Sui,
Abstract要約: SelfBudgeterは、効率的な推論のための自己適応的な制御可能な推論戦略である。提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。実験の結果、自己予算は問題複雑さに応じて合理的に予算を割り当てることができることが示された。
参考スコア（独自算出の注目度）: 29.64638547097158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, large reasoning models demonstrate exceptional performance on various tasks. However, reasoning models inefficiently over-process both trivial and complex queries, leading to resource waste and prolonged user latency. To address this challenge, we propose SelfBudgeter - a self-adaptive controllable reasoning strategy for efficient reasoning. Our approach adopts a dual-phase training paradigm: first, the model learns to pre-estimate the reasoning cost based on the difficulty of the query. Then, we introduce budget-guided GPRO for reinforcement learning, which effectively maintains accuracy while reducing output length. SelfBudgeter allows users to anticipate generation time and make informed decisions about continuing or interrupting the process. Furthermore, our method enables direct manipulation of reasoning length via pre-filling token budget. Experimental results demonstrate that SelfBudgeter can rationally allocate budgets according to problem complexity, achieving up to 74.47% response length compression on the MATH benchmark while maintaining nearly undiminished accuracy.
Abstract（参考訳）: 近年、様々なタスクにおいて、大きな推論モデルが例外的なパフォーマンスを示している。しかし、推論モデルは、自明なクエリと複雑なクエリの両方を非効率に過剰に処理し、リソースの浪費とユーザ遅延の延長につながる。この課題に対処するために、効率的な推論のための自己適応型制御可能な推論戦略であるSelfBudgeterを提案する。まず、クエリの難易度に基づいて、モデルが推論コストを事前に見積もることを学ぶ。提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。 SelfBudgeterを使えば、ユーザは生成時間を予測し、プロセスの継続や中断に関する情報的な決定をすることができる。さらに,トークンの事前充足による推論長の直接操作も可能である。実験結果から、SelfBudgeterは問題複雑性に応じて予算を合理的に割り当て、MATHベンチマークで74.47%のレスポンス長圧縮を達成できる。

関連論文リスト

AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文参考訳（メタデータ） (2025-06-25T06:29:18Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文参考訳（メタデータ） (2025-06-16T17:57:05Z)
Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。トークン消費量を30～55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文参考訳（メタデータ） (2025-05-27T03:18:31Z)
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [29.721108461390973]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文参考訳（メタデータ） (2025-05-25T15:17:57Z)
AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting [23.004467211806467]
AdaCtrlは、難しい適応推論の予算配分をサポートする新しいフレームワークである。自己評価問題難易度に基づいて推論長を動的に調整する。 AdaCtrlは、推論予算の正確なユーザコントロールを可能にし、特定のニーズを満たすように調整されたレスポンスを可能にする。
論文参考訳（メタデータ） (2025-05-24T18:46:50Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [31.189242663680695]
本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文参考訳（メタデータ） (2025-03-06T14:23:06Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文参考訳（メタデータ） (2024-11-01T17:18:45Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。