Fugu-MT 論文翻訳(概要): Diffusion Actor-Critic with Entropy Regulator

論文の概要: Diffusion Actor-Critic with Entropy Regulator

arxiv url: http://arxiv.org/abs/2405.15177v5
Date: Sat, 21 Dec 2024 02:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.56547
Title: Diffusion Actor-Critic with Entropy Regulator
Title（参考訳）: エントロピーレギュレータを用いた拡散アクタ臨界
Authors: Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li,
Abstract要約: エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。 MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
参考スコア（独自算出の注目度）: 32.79341490514616
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement learning (RL) has proven highly effective in addressing complex decision-making and control tasks. However, in most traditional RL algorithms, the policy is typically parameterized as a diagonal Gaussian distribution with learned mean and variance, which constrains their capability to acquire complex policies. In response to this problem, we propose an online RL algorithm termed diffusion actor-critic with entropy regulator (DACER). This algorithm conceptualizes the reverse process of the diffusion model as a novel policy function and leverages the capability of the diffusion model to fit multimodal distributions, thereby enhancing the representational capacity of the policy. Since the distribution of the diffusion policy lacks an analytical expression, its entropy cannot be determined analytically. To mitigate this, we propose a method to estimate the entropy of the diffusion policy utilizing Gaussian mixture model. Building on the estimated entropy, we can learn a parameter $\alpha$ that modulates the degree of exploration and exploitation. Parameter $\alpha$ will be employed to adaptively regulate the variance of the added noise, which is applied to the action output by the diffusion model. Experimental trials on MuJoCo benchmarks and a multimodal task demonstrate that the DACER algorithm achieves state-of-the-art (SOTA) performance in most MuJoCo control tasks while exhibiting a stronger representational capacity of the diffusion policy.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、複雑な意思決定や制御タスクに対処する上で非常に効果的であることが証明されている。しかしながら、ほとんどの伝統的なRLアルゴリズムでは、このポリシーは一般的に、学習平均と分散を持つ対角的なガウス分布としてパラメータ化され、複雑なポリシーを取得する能力を制限する。この問題に対して,エントロピー・レギュレータ(DACER)を用いた拡散アクタ・クリティックというオンラインRLアルゴリズムを提案する。このアルゴリズムは、拡散モデルの逆過程を新しいポリシー関数として概念化し、拡散モデルの能力を多モード分布に適合させ、ポリシーの表現能力を高める。拡散政策の分布は解析的な表現を欠いているため、そのエントロピーは解析的に決定できない。これを軽減するために,ガウス混合モデルを用いて拡散政策のエントロピーを推定する手法を提案する。推定エントロピーに基づいて、探索と搾取の程度を調節するパラメータ $\alpha$ を学ぶことができる。パラメータ$\alpha$は、拡散モデルによって出力されるアクションに適用される付加ノイズの分散を適応的に調節するために使用される。 MuJoCo ベンチマークとマルチモーダルタスクの実験実験により,DACER アルゴリズムがほとんどの MuJoCo 制御タスクにおける最先端 (SOTA) 性能を実現し,拡散ポリシの表現能力が向上することを示した。

関連論文リスト

Diffusion Policy through Conditional Proximal Policy Optimization [6.836651088754774]
拡散政策は、マルチモーダルな振る舞いをモデル化する強力な可能性を示している。重要な課題は、拡散モデルの下でのアクションログのような計算の難しさである。そこで本稿では,オンライン環境下での拡散政策を学習するための,新しい,効率的な手法を提案する。
論文参考訳（メタデータ） (2026-03-05T04:12:13Z)
A Diffusion Model Framework for Maximum Entropy Reinforcement Learning [32.26181994745642]
拡散力学を原理的に組み込んだ MaxEntRL の置換対象を修正した。 DiffSAC, DiffPPO, DiffWPO は, SAC や PPO よりも良いリターンと高いサンプル効率を実現する。
論文参考訳（メタデータ） (2025-12-01T18:59:58Z)
One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文参考訳（メタデータ） (2025-07-31T15:51:10Z)
Distributional Soft Actor-Critic with Diffusion Policy [12.762838783617658]
本稿では,DSAC-D (Distributed Soft Actor Critic with Policy Diffusion) と呼ばれる分散強化学習アルゴリズムを提案する。提案アルゴリズムは,9つの制御タスクすべてにおいて最先端(SOTA)性能を達成し,推定バイアスの大幅な抑制と,従来の主流アルゴリズムと比較して10%以上の平均戻り値の改善を実現している。
論文参考訳（メタデータ） (2025-07-02T05:50:10Z)
Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [53.93023688824764]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。 KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文参考訳（メタデータ） (2025-07-01T05:55:28Z)
DIME:Diffusion-Based Maximum Entropy Reinforcement Learning [37.420420953705396]
最大エントロピー強化学習(MaxEnt-RL)は,RLの探索特性から標準的アプローチとなっている。本稿では,拡散に基づく最大エントロピーRL(DIME)を提案し,その限界エントロピー計算の難しさを克服する。
論文参考訳（メタデータ） (2025-02-04T13:37:14Z)
Sampling from Energy-based Policies using Diffusion [14.542411354617983]
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。提案手法は,連続制御タスクにおけるマルチモーダル動作の探索と捕捉を促進し,既存手法の重要な制約に対処することを示す。
論文参考訳（メタデータ） (2024-10-02T08:09:33Z)
Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文参考訳（メタデータ） (2024-07-18T17:35:32Z)
Equivariant Diffusion Policy [16.52810213171303]
そこで本研究では,ドメイン対称性を利用した新しい拡散政策学習手法を提案し,より優れたサンプル効率とデノナイジング関数の一般化を実現する。提案手法は,MimicGenにおける12のシミュレーションタスクに対して実証的に評価し,ベースライン拡散政策よりも平均21.9%高い成功率が得られることを示す。
論文参考訳（メタデータ） (2024-07-01T21:23:26Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文参考訳（メタデータ） (2024-02-07T18:51:49Z)
Policy Representation via Diffusion Probability Model for Reinforcement Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文参考訳（メタデータ） (2023-05-22T15:23:41Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。