論文の概要: Positive-Only Drifting Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.16519v1
- Date: Wed, 15 Apr 2026 17:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.047984
- Title: Positive-Only Drifting Policy Optimization
- Title(参考訳): ポジティブ・オンリードリフト政策最適化
- Authors: Qi Zhang,
- Abstract要約: PODPOは、オンライン強化学習のための、可能性のない、勾配のない生成アプローチである。
生成モデルの局所的滑らかさを生かしながら、高戻り領域に対して優雅に行動する。
- 参考スコア(独自算出の注目度): 8.156069657157342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of online reinforcement learning (RL), traditional Gaussian policies and flow-based methods are often constrained by their unimodal expressiveness, complex gradient clipping, or stringent trust-region requirements. Moreover, they all rely on post-hoc penalization of negative samples to correct erroneous actions. This paper introduces Positive-Only Drifting Policy Optimization (PODPO), a likelihood-free and gradient-clipping-free generative approach for online RL. By leveraging the drifting model, PODPO performs policy updates via advantage-weighted local contrastive drifting. Relying solely on positive-advantage samples, it elegantly steers actions toward high-return regions while exploiting the inherent local smoothness of the generative model to enable proactive error prevention. In doing so, PODPO opens a promising new pathway for generative policy learning in online settings.
- Abstract(参考訳): オンライン強化学習(RL)の分野では、従来のガウスの政策やフローベースの手法は、その単調な表現性、複雑な勾配クリッピング、厳密な信頼領域要件によって制約されることが多い。
さらに、それらはすべて、誤った行動を正すために負のサンプルのポストホックなペナル化に依存している。
本稿では,オンラインRLにおけるポジティヴ・オン・ドリフト政策最適化(PODPO)について紹介する。
ドリフトモデルを活用することで、PODPOは有利な局所的コントラストドリフトによるポリシー更新を行う。
ポジティブ・アドバンテージ・サンプルにのみ依存し、生成モデル固有の局所的滑らかさを活用して、高いリターン領域へのアクションをエレガントに操り、プロアクティブなエラー防止を可能にする。
その過程でPODPOは、オンライン環境における生成ポリシー学習のための、有望な新しい道を開いた。
関連論文リスト
- Proximal Policy Optimization in Path Space: A Schrödinger Bridge Perspective [41.829130841650326]
我々は、一般化シュルディンガー橋(GSB)に触発された生成PPOの経路空間定式化であるGSB-PPOを提案する。
本枠組みでは,クリッピングに基づく目的,GSB-PPO-Clip,およびペナルティに基づく目的,GSB-PPO-Penaltyの2つの具体的目標を開発する。
提案手法は,PPOを用いた生成ポリシーのトレーニングに有効な原理としてパス空間近位正規化が重要である。
論文 参考訳(メタデータ) (2026-03-23T06:37:42Z) - RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization [40.41228010377401]
本稿では、政治外の知識と政治上のRLの安定性を両立させるためのリフレージング・ポリシー・オプティマイズ(RePO)を提案する。
RePOは、独自のスタイリスティックでパラメトリックな分布に適合する軌跡に、政治外の知識を言い換える。
いくつかのベンチマークの実験では、RePOがハードサンプルの利用を改善し、既存のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-11T13:02:40Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - Learn Your Reference Model for Real Good Alignment [3.091688550418396]
大規模言語モデル(LLM)アライメントのためのオフラインメソッドは、過度な最適化の影響を受けやすい。
我々は、トレーニングプロセスを通して参照ポリシーを動的に更新する、Trust Regionと呼ばれるオフラインアライメント手法の新たなパラダイムを提案する。
この結果から,TRアライメント手法は過度な最適化を効果的に軽減し,初期基準ポリシからかなり逸脱したモデルでも高い性能を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-04-15T10:44:31Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。