論文の概要: Diffusion Actor-Critic with Entropy Regulator
- arxiv url: http://arxiv.org/abs/2405.15177v3
- Date: Sun, 16 Jun 2024 03:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:28:22.362441
- Title: Diffusion Actor-Critic with Entropy Regulator
- Title(参考訳): エントロピーレギュレータを用いた拡散アクタ臨界
- Authors: Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
- 参考スコア(独自算出の注目度): 32.79341490514616
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) has proven highly effective in addressing complex decision-making and control tasks. However, in most traditional RL algorithms, the policy is typically parameterized as a diagonal Gaussian distribution with learned mean and variance, which constrains their capability to acquire complex policies. In response to this problem, we propose an online RL algorithm termed diffusion actor-critic with entropy regulator (DACER). This algorithm conceptualizes the reverse process of the diffusion model as a novel policy function and leverages the capability of the diffusion model to fit multimodal distributions, thereby enhancing the representational capacity of the policy. Since the distribution of the diffusion policy lacks an analytical expression, its entropy cannot be determined analytically. To mitigate this, we propose a method to estimate the entropy of the diffusion policy utilizing Gaussian mixture model. Building on the estimated entropy, we can learn a parameter $\alpha$ that modulates the degree of exploration and exploitation. Parameter $\alpha$ will be employed to adaptively regulate the variance of the added noise, which is applied to the action output by the diffusion model. Experimental trials on MuJoCo benchmarks and a multimodal task demonstrate that the DACER algorithm achieves state-of-the-art (SOTA) performance in most MuJoCo control tasks while exhibiting a stronger representational capacity of the diffusion policy.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑な意思決定や制御タスクに対処する上で非常に効果的であることが証明されている。
しかしながら、ほとんどの伝統的なRLアルゴリズムでは、このポリシーは一般的に、学習平均と分散を持つ対角的なガウス分布としてパラメータ化され、複雑なポリシーを取得する能力を制限する。
この問題に対して,エントロピー・レギュレータ(DACER)を用いた拡散アクタ・クリティックというオンラインRLアルゴリズムを提案する。
このアルゴリズムは、拡散モデルの逆過程を新しいポリシー関数として概念化し、拡散モデルの能力を多モード分布に適合させ、ポリシーの表現能力を高める。
拡散政策の分布は解析的な表現を欠いているため、そのエントロピーは解析的に決定できない。
これを軽減するために,ガウス混合モデルを用いて拡散政策のエントロピーを推定する手法を提案する。
推定エントロピーに基づいて、探索と搾取の程度を調節するパラメータ $\alpha$ を学ぶことができる。
パラメータ$\alpha$は、拡散モデルによって出力されるアクションに適用される付加ノイズの分散を適応的に調節するために使用される。
MuJoCo ベンチマークとマルチモーダルタスクの実験実験により,DACER アルゴリズムがほとんどの MuJoCo 制御タスクにおける最先端 (SOTA) 性能を実現し,拡散ポリシの表現能力が向上することを示した。
関連論文リスト
- Sampling from Energy-based Policies using Diffusion [14.542411354617983]
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
提案手法は,連続制御タスクにおけるマルチモーダル動作の探索と捕捉を促進し,既存手法の重要な制約に対処することを示す。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Equivariant Diffusion Policy [16.52810213171303]
そこで本研究では,ドメイン対称性を利用した新しい拡散政策学習手法を提案し,より優れたサンプル効率とデノナイジング関数の一般化を実現する。
提案手法は,MimicGenにおける12のシミュレーションタスクに対して実証的に評価し,ベースライン拡散政策よりも平均21.9%高い成功率が得られることを示す。
論文 参考訳(メタデータ) (2024-07-01T21:23:26Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。