論文の概要: Distributional Soft Actor-Critic with Diffusion Policy
- arxiv url: http://arxiv.org/abs/2507.01381v1
- Date: Wed, 02 Jul 2025 05:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.061752
- Title: Distributional Soft Actor-Critic with Diffusion Policy
- Title(参考訳): 拡散政策を考慮した分布型ソフトアクター臨界
- Authors: Tong Liu, Yinuo Wang, Xujie Song, Wenjun Zou, Liangfa Chen, Likun Wang, Bin Shuai, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: 本稿では,DSAC-D (Distributed Soft Actor Critic with Policy Diffusion) と呼ばれる分散強化学習アルゴリズムを提案する。
提案アルゴリズムは,9つの制御タスクすべてにおいて最先端(SOTA)性能を達成し,推定バイアスの大幅な抑制と,従来の主流アルゴリズムと比較して10%以上の平均戻り値の改善を実現している。
- 参考スコア(独自算出の注目度): 12.762838783617658
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning has been proven to be highly effective in handling complex control tasks. Traditional methods typically use unimodal distributions, such as Gaussian distributions, to model the output of value distributions. However, unimodal distribution often and easily causes bias in value function estimation, leading to poor algorithm performance. This paper proposes a distributional reinforcement learning algorithm called DSAC-D (Distributed Soft Actor Critic with Diffusion Policy) to address the challenges of estimating bias in value functions and obtaining multimodal policy representations. A multimodal distributional policy iteration framework that can converge to the optimal policy was established by introducing policy entropy and value distribution function. A diffusion value network that can accurately characterize the distribution of multi peaks was constructed by generating a set of reward samples through reverse sampling using a diffusion model. Based on this, a distributional reinforcement learning algorithm with dual diffusion of the value network and the policy network was derived. MuJoCo testing tasks demonstrate that the proposed algorithm not only learns multimodal policy, but also achieves state-of-the-art (SOTA) performance in all 9 control tasks, with significant suppression of estimation bias and total average return improvement of over 10\% compared to existing mainstream algorithms. The results of real vehicle testing show that DSAC-D can accurately characterize the multimodal distribution of different driving styles, and the diffusion policy network can characterize multimodal trajectories.
- Abstract(参考訳): 強化学習は複雑な制御タスクを扱うのに非常に効果的であることが証明されている。
従来の手法では、ガウス分布のような単項分布を用いて、値分布の出力をモデル化する。
しかし、単調分布はしばしば値関数推定のバイアスを引き起こし、アルゴリズムの性能は低下する。
本稿では,DSAC-D(Distributed Soft Actor Critic with Diffusion Policy)と呼ばれる分散強化学習アルゴリズムを提案する。
ポリシエントロピーと値分布関数を導入することにより,最適なポリシに収束可能なマルチモーダル分散ポリシ反復フレームワークを確立した。
拡散モデルを用いて逆サンプリングにより報酬サンプルの集合を生成することにより、マルチピークの分布を正確に特徴付けることができる拡散値ネットワークを構築した。
これに基づいて、値ネットワークとポリシーネットワークの二重拡散を伴う分散強化学習アルゴリズムを導出した。
MuJoCoテストタスクは、提案アルゴリズムがマルチモーダルポリシを学習するだけでなく、既存の主流アルゴリズムと比較して推定バイアスの大幅な抑制と平均戻り値の10%以上の改善を伴い、すべての9つの制御タスクにおいて最先端(SOTA)性能を達成することを実証している。
実車試験の結果,DSAC-Dは異なる運転スタイルのマルチモーダル分布を正確に特徴付けることができ,拡散ポリシネットワークはマルチモーダル軌跡を特徴付けることができることがわかった。
関連論文リスト
- Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。