論文の概要: MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL
- arxiv url: http://arxiv.org/abs/2305.19923v1
- Date: Wed, 31 May 2023 15:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:51:30.378145
- Title: MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL
- Title(参考訳): MetaDiffuser: オフラインメタRLの条件プランナとしての拡散モデル
- Authors: Fei Ni, Jianye Hao, Yao Mu, Yifu Yuan, Yan Zheng, Bin Wang, Zhixuan
Liang
- Abstract要約: オフラインメタRL(MetaDiffuser)のためのタスク指向条件付き拡散プランナを提案する。
提案するフレームワークは,テストタスクから収集したウォームスタートデータの品質に対するロバストさを享受する。
MuJoCoベンチマークの実験結果は、MetaDiffuserが他の強力なオフラインメタRLベースラインより優れていることを示している。
- 参考スコア(独自算出の注目度): 25.76141096396645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion model shines as a promising backbone for the sequence
modeling paradigm in offline reinforcement learning(RL). However, these works
mostly lack the generalization ability across tasks with reward or dynamics
change. To tackle this challenge, in this paper we propose a task-oriented
conditioned diffusion planner for offline meta-RL(MetaDiffuser), which
considers the generalization problem as conditional trajectory generation task
with contextual representation. The key is to learn a context conditioned
diffusion model which can generate task-oriented trajectories for planning
across diverse tasks. To enhance the dynamics consistency of the generated
trajectories while encouraging trajectories to achieve high returns, we further
design a dual-guided module in the sampling process of the diffusion model. The
proposed framework enjoys the robustness to the quality of collected warm-start
data from the testing task and the flexibility to incorporate with different
task representation method. The experiment results on MuJoCo benchmarks show
that MetaDiffuser outperforms other strong offline meta-RL baselines,
demonstrating the outstanding conditional generation ability of diffusion
architecture.
- Abstract(参考訳): 近年,オフライン強化学習(RL)におけるシーケンスモデリングパラダイムのバックボーンとして,拡散モデルが注目されている。
しかし、これらは報酬やダイナミクスの変化を伴うタスク間の一般化能力に欠ける。
そこで本稿では,一般化問題を文脈表現を伴う条件付き軌道生成タスクとみなす,オフラインメタRL(MetaDiffuser)のためのタスク指向条件付き拡散プランナを提案する。
鍵となるのは、様々なタスクを計画するためのタスク指向の軌道を生成するコンテキスト条件付き拡散モデルを学ぶことである。
さらに, 拡散モデルのサンプリング過程において, 軌道の動的整合性を向上し, 軌道の高利得を奨励し, 二重誘導モジュールを設計する。
提案するフレームワークは、テストタスクから収集したウォームスタートデータの品質と、異なるタスク表現メソッドを組み込む柔軟性に対する堅牢性を享受する。
MuJoCoベンチマーク実験の結果、MetaDiffuserは他の強力なオフラインメタRLベースラインよりも優れており、拡散アーキテクチャの優れた条件生成能力を示している。
関連論文リスト
- MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z) - Dynamic Channel Access via Meta-Reinforcement Learning [0.8223798883838329]
モデル非依存型メタラーニング(MAML)の手法を取り入れたメタDRLフレームワークを提案する。
同じ分布から引き出された異なるタスクに適応するためには、勾配降下がわずかに必要であることが示される。
論文 参考訳(メタデータ) (2021-12-24T15:04:43Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。