論文の概要: GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
- arxiv url: http://arxiv.org/abs/2512.02581v1
- Date: Tue, 02 Dec 2025 09:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.812117
- Title: GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
- Title(参考訳): GoRL: 生成ポリシーによるオンライン強化学習のためのアルゴリズムに依存しないフレームワーク
- Authors: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An,
- Abstract要約: GoRLは、条件付き生成デコーダを使用してアクションを合成しながら、トラクタブルな遅延ポリシーを最適化するフレームワークである。
GoRLは、ガウス政策と最近の世代政治のベースラインの両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 16.859964356466676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、永続的な緊張に直面している: 最適化に安定なポリシーは、複雑な制御に必要なマルチモーダルなアクション分布を表現するには、しばしば単純すぎる。
ガウスのポリシーは、抽出可能な確率と滑らかな勾配を与えるが、その一様形式は表現性を制限する。
逆に拡散やフローマッチングに基づく生成ポリシーは、リッチなマルチモーダルな振る舞いをモデル化することができるが、オンラインRLでは、深いサンプリング連鎖を伝播する難易度やノイズ勾配のため、しばしば不安定である。
我々はこの緊張に、最適化を世代から切り離すという重要な構造原理で対処する。
この知見に基づいて,条件付き生成デコーダを用いて動作を合成し,トラクタブルな潜在ポリシーを最適化するフレームワークであるGoRL(Generative Online Reinforcement Learning)を紹介した。
2段階の更新スケジュールにより、遅延ポリシーは安定して学習でき、デコーダは、引き分け可能なアクションの可能性を必要とせず、確実に表現性を高めることができる。
様々な連続制御タスクにおいて、GoRLはガウス政策と最近のジェネレーティブ・ポリティクスのベースラインの両方を一貫して上回っている。
特にHopperStandタスクでは、最強のベースラインの3倍以上の870以上の正規化リターンに達する。
これらの結果は、生成から最適化を分離することは、安定かつ高度に表現力のあるポリシーへの実践的な経路を提供することを示している。
関連論文リスト
- Offline Reinforcement Learning with Generative Trajectory Policies [6.501269050121785]
生成モデルは、オフラインの強化学習のための強力なポリシーのクラスとして登場した。
遅くて反復的なモデルは計算コストが高く、一貫性ポリシのような高速で単一ステップのモデルは、しばしば性能の低下に悩まされる。
提案するジェネレーティブ・トラジェクトリ・ポリティクス(GTP)は,基礎となるODEのソリューションマップ全体を学ぶための,より汎用的な政策パラダイムである。
論文 参考訳(メタデータ) (2025-10-13T15:06:28Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning [34.25769740497309]
GenPOは、正確な拡散反転を利用して、可逆なアクションマッピングを構築する、生成ポリシー最適化フレームワークである。
GenPOは、大規模な並列化トレーニングと実世界のロボット展開の可能性を解き放ち、拡散ポリシーをオンプレミスのRLにうまく統合する最初の方法である。
論文 参考訳(メタデータ) (2025-05-24T15:57:07Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。