論文の概要: Reparameterization Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2508.06214v1
- Date: Fri, 08 Aug 2025 10:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.20449
- Title: Reparameterization Proximal Policy Optimization
- Title(参考訳): Reparameterization Proximal Policy Optimization
- Authors: Hai Zhong, Xun Wang, Zhuoran Li, Longbo Huang,
- Abstract要約: ポリシーグラデーション(RPG)は、微分可能なダイナミクスを活用することで、サンプル効率を改善することを約束している。
しかし、そのトレーニング不安定性には重要な障壁があり、そこでは高分散勾配が学習プロセスを不安定にすることができる。
我々は、安定なサンプル再利用を可能にするために代理目的を利用するPPO(Proximal Policy Optimization)からインスピレーションを得ている。
- 参考スコア(独自算出の注目度): 40.346958259814514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reparameterization policy gradient (RPG) is promising for improving sample efficiency by leveraging differentiable dynamics. However, a critical barrier is its training instability, where high-variance gradients can destabilize the learning process. To address this, we draw inspiration from Proximal Policy Optimization (PPO), which uses a surrogate objective to enable stable sample reuse in the model-free setting. We first establish a connection between this surrogate objective and RPG, which has been largely unexplored and is non-trivial. Then, we bridge this gap by demonstrating that the reparameterization gradient of a PPO-like surrogate objective can be computed efficiently using backpropagation through time. Based on this key insight, we propose Reparameterization Proximal Policy Optimization (RPO), a stable and sample-efficient RPG-based method. RPO enables multiple epochs of stable sample reuse by optimizing a clipped surrogate objective tailored for RPG, while being further stabilized by Kullback-Leibler (KL) divergence regularization and remaining fully compatible with existing variance reduction methods. We evaluate RPO on a suite of challenging locomotion and manipulation tasks, where experiments demonstrate that our method achieves superior sample efficiency and strong performance.
- Abstract(参考訳): リパラメータ化ポリシー勾配(RPG)は、異なるダイナミクスを活用することで、サンプル効率を改善することを約束している。
しかし、そのトレーニング不安定性には重要な障壁があり、そこでは高分散勾配が学習プロセスを不安定にすることができる。
これを解決するために,モデルフリー環境でのサンプル再利用を安定させるために代理目的を用いたPPO (Proximal Policy Optimization) からインスピレーションを得た。
われわれはまず、この代理目的とRPGの関連性を確立する。
そして,PPOのような代理対象のパラメータ化勾配を,時間経過によるバックプロパゲーションを用いて効率的に計算できることを示し,このギャップを橋渡しする。
この重要な知見に基づいて、安定かつサンプル効率の高いRPGベースの手法であるReparameterization Proximal Policy Optimization (RPO)を提案する。
RPOは、RPG用に調整されたクリップされたサロゲート目標を最適化し、Kullback-Leibler(KL)分散正規化によりさらに安定化し、既存の分散還元法と完全互換を保ち、安定したサンプル再利用の複数のエポックを実現する。
そこで,本手法がより優れた試料効率と高い性能を実現することを示す実験を行った。
関連論文リスト
- Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - On the Reuse Bias in Off-Policy Reinforcement Learning [28.29153543457396]
Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。
本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。
本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T06:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。