論文の概要: Coverage Improvement and Fast Convergence of On-policy Preference Learning
- arxiv url: http://arxiv.org/abs/2601.08421v1
- Date: Tue, 13 Jan 2026 10:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.157747
- Title: Coverage Improvement and Fast Convergence of On-policy Preference Learning
- Title(参考訳): オンライン選好学習のカバレッジ改善と高速収束
- Authors: Juno Kim, Jihun Yun, Jason D. Lee, Kwang-Sung Jun,
- Abstract要約: 言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
- 参考スコア(独自算出の注目度): 67.36750525893514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online on-policy preference learning algorithms for language model alignment such as online direct policy optimization (DPO) can significantly outperform their offline counterparts. We provide a theoretical explanation for this phenomenon by analyzing how the sampling policy's coverage evolves throughout on-policy training. We propose and rigorously justify the \emph{coverage improvement principle}: with sufficient batch size, each update moves into a region around the target where coverage is uniformly better, making subsequent data increasingly informative and enabling rapid convergence. In the contextual bandit setting with Bradley-Terry preferences and linear softmax policy class, we show that on-policy DPO converges exponentially in the number of iterations for batch size exceeding a generalized coverage threshold. In contrast, any learner restricted to offline samples from the initial policy suffers a slower minimax rate, leading to a sharp separation in total sample complexity. Motivated by this analysis, we further propose a simple hybrid sampler based on a novel \emph{preferential} G-optimal design, which removes dependence on coverage and guarantees convergence in just two rounds. Finally, we develop principled on-policy schemes for reward distillation in the general function class setting, and show faster noiseless rates under an alternative deviation-based notion of coverage. Experimentally, we confirm that on-policy DPO and our proposed reward distillation algorithms outperform their off-policy counterparts and enjoy stable, monotonic performance gains across iterations.
- Abstract(参考訳): オンラインダイレクトポリシー最適化(DPO)のような、言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインモデルよりも大幅に優れている。
この現象の理論的説明は、サンプリング政策の網羅的範囲が、政治訓練を通じてどのように発展していくかを分析することによって行われる。
十分なバッチサイズで、各更新は、カバレッジが均一に良いターゲット周辺の領域に移動し、その後のデータがますます情報化され、迅速な収束を可能にする。
ブラッドリー・テリー選好と線形ソフトマックス政策クラスによる文脈的バンディット設定では、一般カバレッジ閾値を超えるバッチサイズに対する反復回数に、オンラインDPOが指数関数的に収束することを示した。
対照的に、初期ポリシーからのオフラインサンプルに制限された学習者は、最小限の速度が遅くなり、全サンプルの複雑さが急激に分離される。
そこで本研究では,新たなG-optimal設計を取り入れた簡易なハイブリッドサンプリング手法を提案し,その適用範囲への依存を排除し,たった2ラウンドで収束を保証する。
最後に, 一般関数のクラス設定において, 報奨蒸留方式を原則として開発し, 代替偏差に基づくカバレッジの概念の下で, より高速なノイズレスレートを示す。
実験により, オンラインDPOと提案した報奨蒸留アルゴリズムは, オフポリティクスよりも優れており, イテレーション間の安定な単調な性能向上を享受できることが確認された。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL [6.224756774400233]
本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, さらなる課題を提示する。
対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
論文 参考訳(メタデータ) (2025-06-26T00:22:39Z) - Enhancing PPO with Trajectory-Aware Hybrid Policies [6.938941097426891]
PPO(Proximal Policy Optimization)は、最先端のオンライン・ポリシー・アルゴリズムの1つである。
高分散と高サンプルの複雑さは、いまだにオン・ポリティクスのアルゴリズムにおいて重要な課題である。
本稿では,トラジェクトリ・リプレイバッファを用いて,近年のポリシーによって生成されるトラジェクトリを効率的に活用するハイブリッド・ポリシー・プロキシ・ポリシー・オプティマイズ(HP3O)を提案する。
論文 参考訳(メタデータ) (2025-02-21T22:00:13Z) - Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Simple Policy Optimization [15.66748378216631]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、信頼領域内の保守的な更新を通じて単調な政策改善を保証することで知られている。
PPO(Proximal Policy Optimization)は、TRPOのアプローチを単純化し、効率を向上するが、理論的な堅牢性を犠牲にすることで、この問題に対処する。
どちらの方法の長所を組み合わせられるだろうか?
本稿では,制約のない新しい1次アルゴリズムであるSimple Policy Optimization (SPO)を紹介する。
論文 参考訳(メタデータ) (2024-01-29T10:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。