Fugu-MT 論文翻訳(概要): Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient

論文の概要: Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient

arxiv url: http://arxiv.org/abs/2406.00681v1
Date: Sun, 2 Jun 2024 09:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 03:56:22.776826
Title: Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient
Title（参考訳）: 拡散政策勾配によるスクラッチからのマルチモーダル行動の学習
Authors: Zechu Li, Rickmer Krohn, Tao Chen, Anurag Ajay, Pulkit Agrawal, Georgia Chalvatzaki,
Abstract要約: Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。 DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
参考スコア（独自算出の注目度）: 26.675822002049372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep reinforcement learning (RL) algorithms typically parameterize the policy as a deep network that outputs either a deterministic action or a stochastic one modeled as a Gaussian distribution, hence restricting learning to a single behavioral mode. Meanwhile, diffusion models emerged as a powerful framework for multimodal learning. However, the use of diffusion policies in online RL is hindered by the intractability of policy likelihood approximation, as well as the greedy objective of RL methods that can easily skew the policy to a single mode. This paper presents Deep Diffusion Policy Gradient (DDiffPG), a novel actor-critic algorithm that learns from scratch multimodal policies parameterized as diffusion models while discovering and maintaining versatile behaviors. DDiffPG explores and discovers multiple modes through off-the-shelf unsupervised clustering combined with novelty-based intrinsic motivation. DDiffPG forms a multimodal training batch and utilizes mode-specific Q-learning to mitigate the inherent greediness of the RL objective, ensuring the improvement of the diffusion policy across all modes. Our approach further allows the policy to be conditioned on mode-specific embeddings to explicitly control the learned modes. Empirical studies validate DDiffPG's capability to master multimodal behaviors in complex, high-dimensional continuous control tasks with sparse rewards, also showcasing proof-of-concept dynamic online replanning when navigating mazes with unseen obstacles.
Abstract（参考訳）: ディープ強化学習(英語版) (RL) アルゴリズムは通常、決定論的行動またはガウス分布としてモデル化された確率的行動のどちらかを出力するディープネットワークとしてポリシーをパラメータ化し、学習を単一の行動モードに制限する。一方、拡散モデルはマルチモーダル学習のための強力なフレームワークとして出現した。しかし、オンラインRLにおける拡散ポリシーの使用は、ポリシー可能性近似の難易度や、ポリシーを単一のモードに簡単にスキューできるRL手法の欲求目的によって妨げられている。本稿では,拡散モデルとしてパラメータ化されたマルチモーダルポリシーをスクラッチから学習し,多目的な振る舞いを発見し,維持する新しいアクター批判アルゴリズムであるDeep Diffusion Policy Gradient(DDiffPG)を提案する。 DDiffPGは、非教師なしクラスタリングと新規性に基づく本質的なモチベーションを組み合わせることで、複数のモードを探索し、発見する。 DDiffPGは、マルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和し、すべてのモードにわたる拡散ポリシーの改善を保証する。さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。 DDiffPGの複雑な高次元連続制御タスクにおけるマルチモーダル動作をスパース報酬でマスターする能力を検証する実証的研究、また、目に見えない障害物で迷路をナビゲートする際の概念の動的リプランニングの証明を示す。

関連論文リスト

Distributional Soft Actor-Critic with Diffusion Policy [12.762838783617658]
本稿では,DSAC-D (Distributed Soft Actor Critic with Policy Diffusion) と呼ばれる分散強化学習アルゴリズムを提案する。提案アルゴリズムは,9つの制御タスクすべてにおいて最先端(SOTA)性能を達成し,推定バイアスの大幅な抑制と,従来の主流アルゴリズムと比較して10%以上の平均戻り値の改善を実現している。
論文参考訳（メタデータ） (2025-07-02T05:50:10Z)
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文参考訳（メタデータ） (2025-02-03T14:20:19Z)
Learning on One Mode: Addressing Multi-modality in Offline Reinforcement Learning [9.38848713730931]
オフライン強化学習は、環境と対話することなく、静的データセットから最適なポリシーを学習しようとする。既存の方法は、しばしば一助的行動ポリシーを仮定し、この仮定が破られたとき、最適以下のパフォーマンスをもたらす。本稿では,行動方針の単一かつ有望なモードから学習することに焦点を当てた新しいアプローチである,1モードでの模倣学習(LOM)を提案する。
論文参考訳（メタデータ） (2024-12-04T11:57:36Z)
Sampling from Energy-based Policies using Diffusion [14.542411354617983]
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。提案手法は,連続制御タスクにおけるマルチモーダル動作の探索と捕捉を促進し,既存手法の重要な制約に対処することを示す。
論文参考訳（メタデータ） (2024-10-02T08:09:33Z)
DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文参考訳（メタデータ） (2024-06-13T13:15:40Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Policy Representation via Diffusion Probability Model for Reinforcement Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文参考訳（メタデータ） (2023-05-22T15:23:41Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文参考訳（メタデータ） (2021-04-19T08:21:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。