論文の概要: DIME:Diffusion-Based Maximum Entropy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.02316v1
- Date: Tue, 04 Feb 2025 13:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:36.092352
- Title: DIME:Diffusion-Based Maximum Entropy Reinforcement Learning
- Title(参考訳): DIME:拡散に基づく最大エントロピー強化学習
- Authors: Onur Celik, Zechu Li, Denis Blessing, Ge Li, Daniel Palanicek, Jan Peters, Georgia Chalvatzaki, Gerhard Neumann,
- Abstract要約: 最大エントロピー強化学習(MaxEnt-RL)は,RLの探索特性から標準的アプローチとなっている。
本稿では,拡散に基づく最大エントロピーRL(DIME)を提案し,その限界エントロピー計算の難しさを克服する。
- 参考スコア(独自算出の注目度): 37.420420953705396
- License:
- Abstract: Maximum entropy reinforcement learning (MaxEnt-RL) has become the standard approach to RL due to its beneficial exploration properties. Traditionally, policies are parameterized using Gaussian distributions, which significantly limits their representational capacity. Diffusion-based policies offer a more expressive alternative, yet integrating them into MaxEnt-RL poses challenges--primarily due to the intractability of computing their marginal entropy. To overcome this, we propose Diffusion-Based Maximum Entropy RL (DIME). DIME leverages recent advances in approximate inference with diffusion models to derive a lower bound on the maximum entropy objective. Additionally, we propose a policy iteration scheme that provably converges to the optimal diffusion policy. Our method enables the use of expressive diffusion-based policies while retaining the principled exploration benefits of MaxEnt-RL, significantly outperforming other diffusion-based methods on challenging high-dimensional control benchmarks. It is also competitive with state-of-the-art non-diffusion based RL methods while requiring fewer algorithmic design choices and smaller update-to-data ratios, reducing computational complexity.
- Abstract(参考訳): 最大エントロピー強化学習(MaxEnt-RL)は,RLの探索特性から標準的アプローチとなっている。
伝統的にポリシーはガウス分布を用いてパラメータ化され、表現能力は著しく制限される。
拡散ベースのポリシーは、より表現力のある代替手段を提供するが、それをMaxEnt-RLに統合することは、主に限界エントロピーの計算の難しさのために、課題を引き起こす。
そこで我々は拡散に基づく最大エントロピーRL(DIME)を提案する。
DIMEは拡散モデルと近似推論の最近の進歩を活用し、最大エントロピー目標の下位境界を導出する。
さらに、最適な拡散政策に確実に収束する政策反復スキームを提案する。
提案手法は,MaxEnt-RLの原理的探索利益を維持しつつ,表現的拡散に基づくポリシの利用を可能にする。
また、最先端の非拡散型RL法と競合するが、アルゴリズム設計の選択を少なくし、データの更新比を小さくし、計算複雑性を低減させる。
関連論文リスト
- Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning [11.0460569590737]
本稿では,オフライン強化学習(RL)のための訓練拡散政策の高度技術について述べる。
我々は、SDEが、オフラインデータセットの探索を改善するエントロピー正則化器(Entropy regularizer)を生成することで、ポリシーのログ確率を計算するのに使用できるソリューションを持っていることを示す。
オフラインRLにおけるエントロピー正規化拡散ポリシーとQアンサンブルを組み合わせることで,D4RLベンチマークのほとんどのタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T15:34:30Z) - DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文 参考訳(メタデータ) (2023-10-09T01:29:17Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。