論文の概要: DUET: Optimize Token-Budget Allocation for Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2605.08441v1
- Date: Fri, 08 May 2026 20:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.647048
- Title: DUET: Optimize Token-Budget Allocation for Reinforcement Learning with Verifiable Rewards
- Title(参考訳): DUET:検証リワードによる強化学習のためのトークン予算配分の最適化
- Authors: Haoyu Hu, Xuandong Zhao, Xuhai "Orson'' Xu, Nori Jacoby,
- Abstract要約: 検証可能な報酬による強化学習は、トレーニングステップ毎に数十万のトークンを生成します。
共有計算予算下での両決定を共同で調整することで,推論品質とウォールクロックトレーニング時間の両方が向上することを示す。
- 参考スコア(独自算出の注目度): 37.28110997883518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) generates hundreds of thousands of tokens per training step, with rollout generation dominating the computational cost. The overall token budget can be controlled along two main dimensions: (i) deciding which prompts to allocate rollouts to, and (ii) deciding how long each rollout should be. Prior work has generally controlled only one of these dimensions at a time. We show that jointly tuning both decisions under a shared compute budget improves both reasoning quality and wall-clock training time. We instantiate this view as \textbf{DU}al-controlled tok\textbf{E}n alloca\textbf{T}ion (DUET), a computationally efficient layer over GRPO that uses a lightweight pre-rollout surrogate of prompt informativeness to set how many rollouts each prompt receives, and a marker-gated abort rule with importance reweighting to set when to stop them. On Qwen3-1.7B trained on MATH, DUET outperforms full-budget GRPO and the other three budget-aware baseline methods. DUET's advantage further generalizes to other benchmarks across math and coding, and is on par with the best baseline on the scientific Q\&A domain, while also achieving a $1.62\times$ wall-clock speedup. More notably, using only 50\% of the token budget, DUET still outperforms all baseline methods at their full budget, achieving an even higher $2.51\times$ speedup over full-budget GRPO. We verify the high performance of DUET on other backbone LLMs, including Qwen3-4B and Llama-3.2-3B-Instruct. Notably, the gap between DUET and the strongest baseline \emph{widens} as the budget tightens, contrary to the usual pattern in which efficient methods trade off quality as compute decreases. More broadly, these results suggest that DUET budget-aware control strategies are valuable not only for accelerating training, but also for improving the quality of the learning signal.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、トレーニングステップ毎に数十万のトークンを生成し、ロールアウト生成が計算コストを支配している。
トークン全体の予算は、次の2つの主要な次元に沿って制御できる。
i) ロールアウトを割り当てるプロンプトの決定及び
(二)各ロールアウトの期間を決定すること。
それまでの作業は、一般的にこれらの次元の1つだけを一度に制御していた。
共有計算予算下での両決定を共同で調整することで,推論品質とウォールクロックのトレーニング時間の両方が向上することを示す。
我々は、この見解を \textbf{DU}al- controlled tok\textbf{E}n alloca\textbf{T}ion (DUET) として、GRPO上の計算効率のよいレイヤとして、各プロンプトが受信したロールアウト数を設定するための、軽量な事前ロールアウトサロゲート(pre-rollout surrogate)を用いて、停止するタイミングに重きを置くマーカー付きエイブラトルール(abort rule)をインスタンス化する。
MATHで訓練されたQwen3-1.7Bでは、DUETは全予算GRPOと他の3つの予算対応ベースライン法より優れていた。
DUETの利点は、数学やコーディングにおける他のベンチマークにさらに一般化され、科学的なQ&Aドメインの最高のベースラインと同等であり、また壁時計のスピードアップで1.62ドルを達成している。
さらに注目すべきは、トークン予算の50%しか使用せず、DUETは依然として全予算で全てのベースライン手法を上回り、フル予算のGRPOよりもさらに高い$2.51\times$スピードアップを達成したことである。
我々は、Qwen3-4BやLlama-3.2-3B-Instructなど、他のバックボーンLLM上でのDUETの性能を検証した。
特に、予算としてのDUETと最強のベースライン \emph{widens} とのギャップは、計算が減少するにつれて効率的な方法が品質をトレードオフする通常のパターンとは対照的である。
以上の結果から, DUETの予算対応制御戦略は, 訓練の加速だけでなく, 学習信号の品質向上にも有用であることが示唆された。
関連論文リスト
- Avoiding Overthinking and Underthinking: Curriculum-Aware Budget Scheduling for LLMs [1.7499351967216341]
BCAE(Budget-Adaptive Curriculum Reasoning)は、推論品質とトークン効率を共同で最適化する統合フレームワークである。
BCAEには、Emphbudget-conditioned unified policy、Emphcurriculum-aware budget scheduler、Emphtruncation-aware dense reward mechanismが含まれる。
論文 参考訳(メタデータ) (2026-03-29T18:31:09Z) - Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory [56.0946692457838]
BudgetMemは、明示的でクエリ対応のパフォーマンスコスト管理のためのランタイムエージェントメモリフレームワークである。
軽量ルータは、タスク性能とメモリ構築コストのバランスをとるために、モジュール間の予算層ルーティングを実行する。
LoCoMo、LongMemEval、HotpotQAの他、BudgetMemはパフォーマンスが優先されるときに、強力なベースラインを超える。
論文 参考訳(メタデータ) (2026-02-05T18:57:09Z) - A Relative-Budget Theory for Reinforcement Learning with Verifiable Rewards in Large Language Model Reasoning [48.70183357021465]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を改善するための主要なパラダイムである。
本稿では, 相対予算$:= H/mathbbE[T]$という単一の量を用いて, この変動を説明する式式予算理論を提案する。
報奨の分散と情報トラジェクトリの確率を制御して,$$がサンプル効率を決定することを示す。
論文 参考訳(メタデータ) (2026-02-02T01:31:52Z) - ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning [1.0039548765955955]
ADAPTは、命令チューニングのための明示的なトークン予算の下でタスクサンプリング比率を学習するメタ学習アルゴリズムである。
我々は、推論、読解、コード生成、命令追従にまたがる11のドメイン外のベンチマークの評価を行う。
論文 参考訳(メタデータ) (2025-12-04T08:17:05Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - Sparsity Forcing: Reinforcing Token Sparsity of MLLMs [40.93786579652003]
マルチモーダル大規模言語モデル(MLLM)におけるトークンの分散性を,単純なRLベースのポストトレーニングフレームワークであるtextitSparsity Forcing を用いて明示的に強化する。
本手法では,複数ロールアウトを異なるトークン予算で実行し,効率(トーケン還元率)と性能(回答正当性)の両方を共同報酬として定式化することにより,効率・正確性トレードオフを探索する。
論文 参考訳(メタデータ) (2025-04-23T01:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。