論文の概要: GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18763v1
- Date: Sat, 24 May 2025 15:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.645746
- Title: GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning
- Title(参考訳): GenPO: オンデマンド強化学習に対応した生成拡散モデル
- Authors: Shutong Ding, Ke Hu, Shan Zhong, Haoyang Luo, Weinan Zhang, Jingya Wang, Jun Wang, Ye Shi,
- Abstract要約: GenPOは、正確な拡散反転を利用して、可逆なアクションマッピングを構築する、生成ポリシー最適化フレームワークである。
GenPOは、大規模な並列化トレーニングと実世界のロボット展開の可能性を解き放ち、拡散ポリシーをオンプレミスのRLにうまく統合する最初の方法である。
- 参考スコア(独自算出の注目度): 34.25769740497309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have demonstrated the powerful exploration capabilities and multimodality of generative diffusion-based policies. While substantial progress has been made in offline RL and off-policy RL settings, integrating diffusion policies into on-policy frameworks like PPO remains underexplored. This gap is particularly significant given the widespread use of large-scale parallel GPU-accelerated simulators, such as IsaacLab, which are optimized for on-policy RL algorithms and enable rapid training of complex robotic tasks. A key challenge lies in computing state-action log-likelihoods under diffusion policies, which is straightforward for Gaussian policies but intractable for flow-based models due to irreversible forward-reverse processes and discretization errors (e.g., Euler-Maruyama approximations). To bridge this gap, we propose GenPO, a generative policy optimization framework that leverages exact diffusion inversion to construct invertible action mappings. GenPO introduces a novel doubled dummy action mechanism that enables invertibility via alternating updates, resolving log-likelihood computation barriers. Furthermore, we also use the action log-likelihood for unbiased entropy and KL divergence estimation, enabling KL-adaptive learning rates and entropy regularization in on-policy updates. Extensive experiments on eight IsaacLab benchmarks, including legged locomotion (Ant, Humanoid, Anymal-D, Unitree H1, Go2), dexterous manipulation (Shadow Hand), aerial control (Quadcopter), and robotic arm tasks (Franka), demonstrate GenPO's superiority over existing RL baselines. Notably, GenPO is the first method to successfully integrate diffusion policies into on-policy RL, unlocking their potential for large-scale parallelized training and real-world robotic deployment.
- Abstract(参考訳): 近年の強化学習(RL)の進歩は、生成拡散に基づく政策の強力な探索能力と多モード性を示している。
オフラインのRLとオフラインのRL設定でかなりの進歩があったが、PPOのようなオンプレミスフレームワークへの拡散ポリシーの統合は未定のままである。
このギャップは、IsaacLabのような大規模並列GPUアクセラレーションシミュレータが広く使われていることを考えると、特に顕著である。
主な課題は拡散政策の下での状態-作用ログの計算であり、これはガウス政策では単純だが、非可逆的な前方逆プロセスと離散化誤差(例えば、オイラー・丸山近似)によりフローベースモデルでは難解である。
このギャップを埋めるために、我々は、正確な拡散反転を利用して、可逆なアクションマッピングを構築する生成ポリシー最適化フレームワークGenPOを提案する。
GenPOは、更新を交互に行い、ログライクな計算障壁を解決することで可逆性を可能にする、新しいダブルドダミーアクションメカニズムを導入している。
さらに,非バイアス付きエントロピーとKL分散推定にアクションログライクリングを用い,KL適応学習率とオン・ポリティクス更新におけるエントロピー正規化を可能にする。
アイザックラボの8つのベンチマーク(Ant、Humanoid、Anymal-D、Unitree H1、Go2)、デキスタラス操作(Shadow Hand)、空中制御(Quadcopter)、ロボットアームタスク(Franka)など)は、既存のRLベースラインよりもGenPOの方が優れていることを示している。
特に、GenPOは、大規模な並列化トレーニングと実世界のロボット展開の可能性を解き放ち、拡散ポリシーをオンプレミスのRLにうまく統合する最初の方法である。
関連論文リスト
- Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。