Fugu-MT 論文翻訳(概要): Optimizing Anytime Reasoning via Budget Relative Policy Optimization

論文の概要: Optimizing Anytime Reasoning via Budget Relative Policy Optimization

arxiv url: http://arxiv.org/abs/2505.13438v1
Date: Mon, 19 May 2025 17:58:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.802915
Title: Optimizing Anytime Reasoning via Budget Relative Policy Optimization
Title（参考訳）: 予算相対的政策最適化による随時推論の最適化
Authors: Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin,
Abstract要約: 我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
参考スコア（独自算出の注目度）: 38.57672572913099
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling test-time compute is crucial for enhancing the reasoning capabilities of large language models (LLMs). Existing approaches typically employ reinforcement learning (RL) to maximize a verifiable reward obtained at the end of reasoning traces. However, such methods optimize only the final performance under a large and fixed token budget, which hinders efficiency in both training and deployment. In this work, we present a novel framework, AnytimeReasoner, to optimize anytime reasoning performance, which aims to improve token efficiency and the flexibility of reasoning under varying token budget constraints. To achieve this, we truncate the complete thinking process to fit within sampled token budgets from a prior distribution, compelling the model to summarize the optimal answer for each truncated thinking for verification. This introduces verifiable dense rewards into the reasoning process, facilitating more effective credit assignment in RL optimization. We then optimize the thinking and summary policies in a decoupled manner to maximize the cumulative reward. Additionally, we introduce a novel variance reduction technique, Budget Relative Policy Optimization (BRPO), to enhance the robustness and efficiency of the learning process when reinforcing the thinking policy. Empirical results in mathematical reasoning tasks demonstrate that our method consistently outperforms GRPO across all thinking budgets under various prior distributions, enhancing both training and token efficiency.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力を高めるためには,テスト時間計算のスケールアップが不可欠である。既存のアプローチでは、推理トレースの最後に得られる検証可能な報酬を最大化するために強化学習(RL)を用いるのが一般的である。しかし、このような手法は、大規模かつ固定されたトークン予算の下での最終的なパフォーマンスのみを最適化し、トレーニングとデプロイメントの効率を損なう。本稿では、トークンの効率とさまざまなトークン予算制約の下での推論の柔軟性を改善することを目的とした、任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。これを実現するために,本研究では,サンプルトークンの予算に適合する完全な思考プロセスを事前分布から切り離し,各試行錯誤した思考に対する最適回答をモデルにまとめて検証する。これにより、推論プロセスに検証可能な高密度報酬が導入され、RL最適化におけるより効果的なクレジット割り当てが促進される。次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。さらに,思考方針の強化において,学習プロセスの堅牢性と効率を高めるために,新しい分散低減手法である予算相対政策最適化(BRPO)を導入する。数学的推論タスクにおける実証的な結果から,提案手法は様々な事前分布下でのすべての思考予算においてGRPOを一貫して上回り,トレーニングとトークン効率の両立が図られている。

関連論文リスト

Stepsize anything: A unified learning rate schedule for budgeted-iteration training [43.52874155421866]
予算設定訓練は、所定の予算内で最適な学習を実現することを目的としている。学習率のスケジュールは異なるネットワークやタスクのパフォーマンスを左右するが、その設計は理論的な基礎をほとんど欠いている。本稿では,Unified Budget-Aware (UBA) スケジュールを提案する。
論文参考訳（メタデータ） (2025-05-30T10:38:03Z)
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文参考訳（メタデータ） (2025-05-27T20:59:29Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文参考訳（メタデータ） (2025-03-27T18:00:08Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Evolutionary Pre-Prompt Optimization for Mathematical Reasoning [45.461506988071534]
本稿では,実効的なチェーン・オブ・フォー・プレプロンプトの設計におけるサンプル選択の最適化について検討する。アルゴリズムの選択は、通常、進化的計算のような比較に基づく手法に有利であり、有効性と実現可能性を大幅に向上させることを示している。
論文参考訳（メタデータ） (2024-12-05T16:12:06Z)
Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文参考訳（メタデータ） (2024-06-24T08:18:19Z)
Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文参考訳（メタデータ） (2023-11-13T13:19:34Z)
Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。 RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文参考訳（メタデータ） (2020-07-09T10:01:32Z)
Effective End-to-End Learning Framework for Economic Dispatch [3.034038412630808]
エンド・ツー・エンドの機械学習の概念を採用し、経済的なディスパッチを行うためのタスク固有の学習基準を提案する。提案する学習フレームワークの有効性と効率を明らかにするため,理論的分析と経験的洞察の両方を提供する。
論文参考訳（メタデータ） (2020-02-22T08:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。