論文の概要: Maximum Entropy Reinforcement Learning with Diffusion Policy
- arxiv url: http://arxiv.org/abs/2502.11612v2
- Date: Tue, 18 Feb 2025 09:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:13.053328
- Title: Maximum Entropy Reinforcement Learning with Diffusion Policy
- Title(参考訳): 拡散政策を用いた最大エントロピー強化学習
- Authors: Xiaoyi Dong, Jian Cheng, Xi Sheryl Zhang,
- Abstract要約: 本稿では,MaxEnt RLの目的を満たすためのポリシー表現として,複雑なマルチモーダル分布をキャプチャ可能な強力な生成モデルである拡散モデルを用いる。
提案手法により,効率的な探索が可能となり,最適なMaxEntポリシーに近づいた。
- 参考スコア(独自算出の注目度): 24.889485955864547
- License:
- Abstract: The Soft Actor-Critic (SAC) algorithm with a Gaussian policy has become a mainstream implementation for realizing the Maximum Entropy Reinforcement Learning (MaxEnt RL) objective, which incorporates entropy maximization to encourage exploration and enhance policy robustness. While the Gaussian policy performs well on simpler tasks, its exploration capacity and potential performance in complex multi-goal RL environments are limited by its inherent unimodality. In this paper, we employ the diffusion model, a powerful generative model capable of capturing complex multimodal distributions, as the policy representation to fulfill the MaxEnt RL objective, developing a method named MaxEnt RL with Diffusion Policy (MaxEntDP). Our method enables efficient exploration and brings the policy closer to the optimal MaxEnt policy. Experimental results on Mujoco benchmarks show that MaxEntDP outperforms the Gaussian policy and other generative models within the MaxEnt RL framework, and performs comparably to other state-of-the-art diffusion-based online RL algorithms. Our code is available at https://github.com/diffusionyes/MaxEntDP.
- Abstract(参考訳): 極大エントロピー強化学習(MaxEnt RL)の目的を実現するために,ガウス政策を用いたソフトアクター・クリティカル(SAC)アルゴリズムが主流となっている。
ガウスの政策は単純なタスクでうまく機能するが、複雑なマルチゴールRL環境における探索能力と潜在的な性能は、その固有の一様性によって制限される。
本稿では, MaxEnt RL の目的を達成するための政策表現として, 複雑なマルチモーダル分布を捕捉する強力な生成モデルである拡散モデルを用い, 拡散ポリシー付き MaxEnt RL という手法を開発した。
提案手法により,効率的な探索が可能となり,最適なMaxEntポリシーに近づいた。
Mujocoベンチマークの実験結果によると、MaxEntDPはMaxEnt RLフレームワーク内のガウスポリシーやその他の生成モデルよりも優れており、他の最先端拡散ベースオンラインRLアルゴリズムと互換性がある。
私たちのコードはhttps://github.com/diffusionyes/MaxEntDPで利用可能です。
関連論文リスト
- DIME:Diffusion-Based Maximum Entropy Reinforcement Learning [37.420420953705396]
最大エントロピー強化学習(MaxEnt-RL)は,RLの探索特性から標準的アプローチとなっている。
本稿では,拡散に基づく最大エントロピーRL(DIME)を提案し,その限界エントロピー計算の難しさを克服する。
論文 参考訳(メタデータ) (2025-02-04T13:37:14Z) - Sampling from Energy-based Policies using Diffusion [14.542411354617983]
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
提案手法は,連続制御タスクにおけるマルチモーダル動作の探索と捕捉を促進し,既存手法の重要な制約に対処することを示す。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy
RL [0.0]
強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアルゴリズムを組み合わせている。
本稿では,Mb軌道最適化のためのオンライン学習と,Mf-RLの外部政治手法を統合する階層的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-23T15:16:49Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。