論文の概要: OptPO: Optimal Rollout Allocation for Test-time Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.02882v1
- Date: Tue, 02 Dec 2025 15:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.952401
- Title: OptPO: Optimal Rollout Allocation for Test-time Policy Optimization
- Title(参考訳): OptPO: テスト時間ポリシー最適化のための最適ロールアウトアロケーション
- Authors: Youkang Wang, Jian Wang, Rubing Chen, Tianyi Zeng, Xiao-Yong Wei, Qing Li,
- Abstract要約: テスト時のポリシー最適化により、大規模言語モデルでは、自己生成ロールアウトからのフィードバックを活用することで、分散シフトに適応することができる。
我々は、推論予算を適応的に割り当てる原則的フレームワークであるテスト時間ポリシー最適化のための最適ロールアウト割当(OptPO)を提案する。
- 参考スコア(独自算出の注目度): 11.375209834858135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time policy optimization enables large language models (LLMs) to adapt to distribution shifts by leveraging feedback from self-generated rollouts. However, existing methods rely on fixed-budget majority voting to estimate rewards, incurring substantial computational redundancy. We propose Optimal Rollout Allocation for Test-time Policy Optimization (OptPO), a principled framework that adaptively allocates inference budgets. By formulating the voting process as a Bayesian sequential probability ratio test, OptPO dynamically halts sampling once the posterior confidence in a consensus answer exceeds a specified threshold. Crucially, it utilizes the retained rollouts for on-policy updates, seamlessly integrating with algorithms like PPO or GRPO without requiring ground-truth labels. Across diverse reasoning benchmarks, OptPO significantly reduces rollout overhead compared to fixed-sample baselines while preserving or improving accuracy. By unifying statistically optimal stopping with test-time learning, OptPO offers a computationally efficient paradigm for test-time adaptation. The source code will be open upon acceptance at https://open-upon-acceptance.
- Abstract(参考訳): テスト時ポリシー最適化により、大規模言語モデル(LLM)は、自己生成ロールアウトからのフィードバックを活用することで、分散シフトに適応することができる。
しかし、既存の手法では、報酬を見積もるために固定予算の多数決に頼っており、かなりの計算冗長性が生じる。
我々は、推論予算を適応的に割り当てる原則的フレームワークであるテスト時間ポリシー最適化のための最適ロールアウト割当(OptPO)を提案する。
ベイズシーケンシャル確率比テストとして投票プロセスを定式化することにより、OptPOは、コンセンサス回答における後続信頼度が所定の閾値を超えるとサンプリングを動的に停止する。
重要な点として、PPOやGRPOといったアルゴリズムとシームレスに統合し、地味なラベルを必要とせずに、オン・ポリティクスの更新に保持されたロールアウトを利用する。
さまざまな推論ベンチマークを通じて、OpsPOは、正確性を維持したり改善したりしながら、固定サンプルベースラインと比較してロールアウトオーバーヘッドを著しく削減します。
統計的に最適な停止とテスト時間学習を統一することにより、OptPOはテスト時間適応のための計算効率の良いパラダイムを提供する。
ソースコードはhttps://open-upon-acceptance.comで公開される。
関連論文リスト
- Lightweight Robust Direct Preference Optimization [26.99327564250612]
DPO-PRO (DPO with Preference Robustness) はDPOに基づく頑健な微調整アルゴリズムである。
従来のDROベースの変種とは異なり、DPO-PROは好みの不確実性にのみ焦点をあて、不必要な保守性を避け、無視可能な計算オーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2025-10-27T17:55:06Z) - Preference Robustness for DPO with Applications to Public Health [26.99327564250612]
直接選好最適化(DPO)に基づく頑健な微調整アルゴリズムDPO-PROを提案する。
DPO-PROを,非営利組織ARMMANが運営する実世界の母体保健プログラムで評価した。
論文 参考訳(メタデータ) (2025-09-02T18:10:32Z) - Preference Optimization by Estimating the Ratio of the Data Distribution [31.298532877678657]
本稿では,比例マッチングのためのBregman preference Optimization (BPO)を提案する。
BPO は DPO を特別な場合として仮定し、すべてのインスタンスに対して tractable form を提供する。
実験では、$f$-DPOや$f$-POのような他の確率的損失拡張とは異なり、BPOのインスタンスはDPOと比較して勝利率とエントロピーの両方を改善する。
論文 参考訳(メタデータ) (2025-05-26T07:10:53Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。