論文の概要: Optimizing Anytime Reasoning via Budget Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.13438v1
- Date: Mon, 19 May 2025 17:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.802915
- Title: Optimizing Anytime Reasoning via Budget Relative Policy Optimization
- Title(参考訳): 予算相対的政策最適化による随時推論の最適化
- Authors: Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin,
- Abstract要約: 我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
- 参考スコア(独自算出の注目度): 38.57672572913099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling test-time compute is crucial for enhancing the reasoning capabilities of large language models (LLMs). Existing approaches typically employ reinforcement learning (RL) to maximize a verifiable reward obtained at the end of reasoning traces. However, such methods optimize only the final performance under a large and fixed token budget, which hinders efficiency in both training and deployment. In this work, we present a novel framework, AnytimeReasoner, to optimize anytime reasoning performance, which aims to improve token efficiency and the flexibility of reasoning under varying token budget constraints. To achieve this, we truncate the complete thinking process to fit within sampled token budgets from a prior distribution, compelling the model to summarize the optimal answer for each truncated thinking for verification. This introduces verifiable dense rewards into the reasoning process, facilitating more effective credit assignment in RL optimization. We then optimize the thinking and summary policies in a decoupled manner to maximize the cumulative reward. Additionally, we introduce a novel variance reduction technique, Budget Relative Policy Optimization (BRPO), to enhance the robustness and efficiency of the learning process when reinforcing the thinking policy. Empirical results in mathematical reasoning tasks demonstrate that our method consistently outperforms GRPO across all thinking budgets under various prior distributions, enhancing both training and token efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を高めるためには,テスト時間計算のスケールアップが不可欠である。
既存のアプローチでは、推理トレースの最後に得られる検証可能な報酬を最大化するために強化学習(RL)を用いるのが一般的である。
しかし、このような手法は、大規模かつ固定されたトークン予算の下での最終的なパフォーマンスのみを最適化し、トレーニングとデプロイメントの効率を損なう。
本稿では、トークンの効率とさまざまなトークン予算制約の下での推論の柔軟性を改善することを目的とした、任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
これを実現するために,本研究では,サンプルトークンの予算に適合する完全な思考プロセスを事前分布から切り離し,各試行錯誤した思考に対する最適回答をモデルにまとめて検証する。
これにより、推論プロセスに検証可能な高密度報酬が導入され、RL最適化におけるより効果的なクレジット割り当てが促進される。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
さらに,思考方針の強化において,学習プロセスの堅牢性と効率を高めるために,新しい分散低減手法である予算相対政策最適化(BRPO)を導入する。
数学的推論タスクにおける実証的な結果から,提案手法は様々な事前分布下でのすべての思考予算においてGRPOを一貫して上回り,トレーニングとトークン効率の両立が図られている。
関連論文リスト
- Provable and Practical In-Context Policy Optimization for Self-Improvement [49.670847804409874]
本研究では,モデルが推論における複数ラウンドの自己回帰によって解答を改善するテスト時間スケーリングについて検討する。
In-Context Policy Optimization (ICPO)を導入し、エージェントはパラメータを変更することなく、自己評価または外部から観察された報酬を用いて、その応答を文脈で最適化する。
提案する最小エントロピーICPO(ME-ICPO, Minimum-Entropy ICPO)は、その応答と自己評価報酬を反復的に利用して、推論時にその応答を洗練する実用的なアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-02T00:21:50Z) - Labels or Preferences? Budget-Constrained Learning with Human Judgments over AI-Generated Outputs [17.028710603629026]
我々は,AIにおいて,基幹ラベルとペアの選好の間で,固定されたアノテーション予算を最適に割り当てる方法について述べる。
本稿では,データ取得戦略を最適に学習する新しいロバストネス手法であるPreference-Calibrated Active Learning (PCAL)を紹介する。
この研究は、現代のAIにおける予算制約学習に対する原則的かつ統計的に効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-19T23:23:29Z) - Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-16T07:09:30Z) - ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition [11.094392304740134]
我々は,厳密なグローバルトークン制約の下で,複数のタスクに対する予算付き推論時間推論について検討した。
この視点はメタ認知的要件を強調し、タスクの難しさを予測し、投資よりもリターンを推定する。
2段階のフレームワークであるROI-Reasoningを提案する。
論文 参考訳(メタデータ) (2026-01-07T11:30:55Z) - Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning [0.0]
本稿では,1ステップのマルコフ決定プロセス(MDP)として適応戦略選択を形式化する軽量強化学習フレームワークであるPrompt Policy Network(PPN)を紹介する。
算術的推論ベンチマークの実験では、PPNは競争精度を維持しながら自己整合性よりも61.5%のトークンコスト削減を達成した。
論文 参考訳(メタデータ) (2025-09-28T07:32:42Z) - BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens [33.607723102172194]
BudgetThinkerは、予算を考慮した推論で大規模言語モデルを強化するために設計されたフレームワークである。
我々は、BudgetThinkerが、様々な推論予算におけるパフォーマンス維持において、強力なベースラインをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2025-08-24T03:17:50Z) - Stepsize anything: A unified learning rate schedule for budgeted-iteration training [43.52874155421866]
予算設定訓練は、所定の予算内で最適な学習を実現することを目的としている。
学習率のスケジュールは異なるネットワークやタスクのパフォーマンスを左右するが、その設計は理論的な基礎をほとんど欠いている。
本稿では,Unified Budget-Aware (UBA) スケジュールを提案する。
論文 参考訳(メタデータ) (2025-05-30T10:38:03Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Evolutionary Pre-Prompt Optimization for Mathematical Reasoning [45.461506988071534]
本稿では,実効的なチェーン・オブ・フォー・プレプロンプトの設計におけるサンプル選択の最適化について検討する。
アルゴリズムの選択は、通常、進化的計算のような比較に基づく手法に有利であり、有効性と実現可能性を大幅に向上させることを示している。
論文 参考訳(メタデータ) (2024-12-05T16:12:06Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。
RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文 参考訳(メタデータ) (2020-07-09T10:01:32Z) - Effective End-to-End Learning Framework for Economic Dispatch [3.034038412630808]
エンド・ツー・エンドの機械学習の概念を採用し、経済的なディスパッチを行うためのタスク固有の学習基準を提案する。
提案する学習フレームワークの有効性と効率を明らかにするため,理論的分析と経験的洞察の両方を提供する。
論文 参考訳(メタデータ) (2020-02-22T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。