論文の概要: Policy Representation via Diffusion Probability Model for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2305.13122v1
- Date: Mon, 22 May 2023 15:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:55:34.794319
- Title: Policy Representation via Diffusion Probability Model for Reinforcement
Learning
- Title(参考訳): 強化学習のための拡散確率モデルによる政策表現
- Authors: Long Yang, Zhixiong Huang, Fenghao Lei, Yucun Zhong, Yiming Yang, Cong
Fang, Shiting Wen, Binbin Zhou, Zhouchen Lin
- Abstract要約: 拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
- 参考スコア(独自算出の注目度): 67.56363353547775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Popular reinforcement learning (RL) algorithms tend to produce a unimodal
policy distribution, which weakens the expressiveness of complicated policy and
decays the ability of exploration. The diffusion probability model is powerful
to learn complicated multimodal distributions, which has shown promising and
potential applications to RL. In this paper, we formally build a theoretical
foundation of policy representation via the diffusion probability model and
provide practical implementations of diffusion policy for online model-free RL.
Concretely, we character diffusion policy as a stochastic process, which is a
new approach to representing a policy. Then we present a convergence guarantee
for diffusion policy, which provides a theory to understand the multimodality
of diffusion policy. Furthermore, we propose the DIPO which is an
implementation for model-free online RL with DIffusion POlicy. To the best of
our knowledge, DIPO is the first algorithm to solve model-free online RL
problems with the diffusion model. Finally, extensive empirical results show
the effectiveness and superiority of DIPO on the standard continuous control
Mujoco benchmark.
- Abstract(参考訳): 一般的な強化学習(RL)アルゴリズムは、複雑な政策の表現力を弱め、探索能力を低下させる一助的な政策分布を生成する傾向がある。
拡散確率モデルは、rlに有望で潜在的な応用を示す複雑なマルチモーダル分布を学ぶのに有効である。
本稿では,拡散確率モデルによる政策表現の理論基盤を正式に構築し,オンラインモデルフリーRLのための拡散ポリシーの実践的実装を提供する。
具体的には,拡散政策を確率的プロセスとして表現する。
次に,拡散政策に対する収束保証を提案し,拡散政策の多様性を理解する理論を提供する。
さらに,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
我々の知る限り、DIPOは拡散モデルを用いて、モデルなしオンラインRL問題を解決する最初のアルゴリズムである。
最後に、実証実験の結果は、標準の連続制御MujocoベンチマークにおけるDIPOの有効性と優位性を示している。
関連論文リスト
- Behavioral Refinement via Interpolant-based Policy Diffusion [17.63910869653275]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
我々の手法はBRIDGERと呼ばれ、補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [99.7952627335176]
拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。
それまでの作業では、拡散モデルのスコアベース構造を活用できず、代わりに単純な行動クローニング用語を使用してアクターを訓練した。
本稿では,Q関数のスコアと行動勾配の関連構造を利用した拡散モデルポリシーの学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - World Models via Policy-Guided Trajectory Diffusion [24.603905183776728]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文 参考訳(メタデータ) (2023-10-09T01:29:17Z) - Consistency Models as a Rich and Efficient Policy Class for
Reinforcement Learning [30.501249545074984]
拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)へのマルチモーダルデータのモデリングに有効であることが証明された。
本稿では,3つの典型的なRL設定に対するアクタ批判型アルゴリズムを用いて,一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。
論文 参考訳(メタデータ) (2023-09-29T05:05:54Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。