論文の概要: Policy Representation via Diffusion Probability Model for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2305.13122v1
- Date: Mon, 22 May 2023 15:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:55:34.794319
- Title: Policy Representation via Diffusion Probability Model for Reinforcement
Learning
- Title(参考訳): 強化学習のための拡散確率モデルによる政策表現
- Authors: Long Yang, Zhixiong Huang, Fenghao Lei, Yucun Zhong, Yiming Yang, Cong
Fang, Shiting Wen, Binbin Zhou, Zhouchen Lin
- Abstract要約: 拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
- 参考スコア(独自算出の注目度): 67.56363353547775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Popular reinforcement learning (RL) algorithms tend to produce a unimodal
policy distribution, which weakens the expressiveness of complicated policy and
decays the ability of exploration. The diffusion probability model is powerful
to learn complicated multimodal distributions, which has shown promising and
potential applications to RL. In this paper, we formally build a theoretical
foundation of policy representation via the diffusion probability model and
provide practical implementations of diffusion policy for online model-free RL.
Concretely, we character diffusion policy as a stochastic process, which is a
new approach to representing a policy. Then we present a convergence guarantee
for diffusion policy, which provides a theory to understand the multimodality
of diffusion policy. Furthermore, we propose the DIPO which is an
implementation for model-free online RL with DIffusion POlicy. To the best of
our knowledge, DIPO is the first algorithm to solve model-free online RL
problems with the diffusion model. Finally, extensive empirical results show
the effectiveness and superiority of DIPO on the standard continuous control
Mujoco benchmark.
- Abstract(参考訳): 一般的な強化学習(RL)アルゴリズムは、複雑な政策の表現力を弱め、探索能力を低下させる一助的な政策分布を生成する傾向がある。
拡散確率モデルは、rlに有望で潜在的な応用を示す複雑なマルチモーダル分布を学ぶのに有効である。
本稿では,拡散確率モデルによる政策表現の理論基盤を正式に構築し,オンラインモデルフリーRLのための拡散ポリシーの実践的実装を提供する。
具体的には,拡散政策を確率的プロセスとして表現する。
次に,拡散政策に対する収束保証を提案し,拡散政策の多様性を理解する理論を提供する。
さらに,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
我々の知る限り、DIPOは拡散モデルを用いて、モデルなしオンラインRL問題を解決する最初のアルゴリズムである。
最後に、実証実験の結果は、標準の連続制御MujocoベンチマークにおけるDIPOの有効性と優位性を示している。
関連論文リスト
- Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning [25.81859481634996]
拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)へのマルチモーダルデータのモデリングに有効であることが証明された。
本稿では,3つの典型的なRL設定に対するアクタ批判型アルゴリズムを用いて,一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。
論文 参考訳(メタデータ) (2023-09-29T05:05:54Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。