論文の概要: A Diffusion Model Framework for Maximum Entropy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.02019v1
- Date: Mon, 01 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.046914
- Title: A Diffusion Model Framework for Maximum Entropy Reinforcement Learning
- Title(参考訳): 最大エントロピー強化学習のための拡散モデルフレームワーク
- Authors: Sebastian Sanokowski, Kaustubh Patil, Alois Knoll,
- Abstract要約: 拡散力学を原理的に組み込んだ MaxEntRL の置換対象を修正した。
DiffSAC, DiffPPO, DiffWPO は, SAC や PPO よりも良いリターンと高いサンプル効率を実現する。
- 参考スコア(独自算出の注目度): 32.26181994745642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in data-driven learning and in sampling from complex, unnormalized target distributions. Building on this progress, we reinterpret Maximum Entropy Reinforcement Learning (MaxEntRL) as a diffusion model-based sampling problem. We tackle this problem by minimizing the reverse Kullback-Leibler (KL) divergence between the diffusion policy and the optimal policy distribution using a tractable upper bound. By applying the policy gradient theorem to this objective, we derive a modified surrogate objective for MaxEntRL that incorporates diffusion dynamics in a principled way. This leads to simple diffusion-based variants of Soft Actor-Critic (SAC), Proximal Policy Optimization (PPO) and Wasserstein Policy Optimization (WPO), termed DiffSAC, DiffPPO and DiffWPO. All of these methods require only minor implementation changes to their base algorithm. We find that on standard continuous control benchmarks, DiffSAC, DiffPPO and DiffWPO achieve better returns and higher sample efficiency than SAC and PPO.
- Abstract(参考訳): 拡散モデルは、データ駆動学習および複雑な非正規化対象分布からのサンプリングにおいて、顕著な成功を収めた。
この進歩に基づいて、最大エントロピー強化学習(MaxEntRL)を拡散モデルに基づくサンプリング問題として再解釈する。
我々は, トラクタブルな上界を用いて, 拡散ポリシと最適ポリシ分布との逆KL(Kulback-Leibler)のばらつきを最小化することで, この問題に対処する。
この目的にポリシー勾配定理を適用することにより、原理的な方法で拡散力学を組み込んだMaxEntRLの修正された代理目的を導出する。
これにより、SAC(Soft Actor-Critic)、PPO(Proximal Policy Optimization)、WPO(Wasserstein Policy Optimization)の単純な拡散に基づく変種が、DiffSAC、DiffPPO、DiffWPOと呼ばれる。
これらの手法はすべて、基本アルゴリズムに小さな実装変更しか必要としない。
標準連続制御ベンチマークでは, DiffSAC, DiffPPO, DiffWPO が SAC や PPO よりもよいリターンと高いサンプル効率を実現していることがわかった。
関連論文リスト
- One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。