Fugu-MT 論文翻訳(概要): MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL

論文の概要: MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL

arxiv url: http://arxiv.org/abs/2305.19923v1
Date: Wed, 31 May 2023 15:01:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 15:51:30.378145
Title: MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL
Title（参考訳）: MetaDiffuser: オフラインメタRLの条件プランナとしての拡散モデル
Authors: Fei Ni, Jianye Hao, Yao Mu, Yifu Yuan, Yan Zheng, Bin Wang, Zhixuan Liang
Abstract要約: オフラインメタRL(MetaDiffuser)のためのタスク指向条件付き拡散プランナを提案する。提案するフレームワークは,テストタスクから収集したウォームスタートデータの品質に対するロバストさを享受する。 MuJoCoベンチマークの実験結果は、MetaDiffuserが他の強力なオフラインメタRLベースラインより優れていることを示している。
参考スコア（独自算出の注目度）: 25.76141096396645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, diffusion model shines as a promising backbone for the sequence modeling paradigm in offline reinforcement learning(RL). However, these works mostly lack the generalization ability across tasks with reward or dynamics change. To tackle this challenge, in this paper we propose a task-oriented conditioned diffusion planner for offline meta-RL(MetaDiffuser), which considers the generalization problem as conditional trajectory generation task with contextual representation. The key is to learn a context conditioned diffusion model which can generate task-oriented trajectories for planning across diverse tasks. To enhance the dynamics consistency of the generated trajectories while encouraging trajectories to achieve high returns, we further design a dual-guided module in the sampling process of the diffusion model. The proposed framework enjoys the robustness to the quality of collected warm-start data from the testing task and the flexibility to incorporate with different task representation method. The experiment results on MuJoCo benchmarks show that MetaDiffuser outperforms other strong offline meta-RL baselines, demonstrating the outstanding conditional generation ability of diffusion architecture.
Abstract（参考訳）: 近年,オフライン強化学習(RL)におけるシーケンスモデリングパラダイムのバックボーンとして,拡散モデルが注目されている。しかし、これらは報酬やダイナミクスの変化を伴うタスク間の一般化能力に欠ける。そこで本稿では,一般化問題を文脈表現を伴う条件付き軌道生成タスクとみなす,オフラインメタRL(MetaDiffuser)のためのタスク指向条件付き拡散プランナを提案する。鍵となるのは、様々なタスクを計画するためのタスク指向の軌道を生成するコンテキスト条件付き拡散モデルを学ぶことである。さらに, 拡散モデルのサンプリング過程において, 軌道の動的整合性を向上し, 軌道の高利得を奨励し, 二重誘導モジュールを設計する。提案するフレームワークは、テストタスクから収集したウォームスタートデータの品質と、異なるタスク表現メソッドを組み込む柔軟性に対する堅牢性を享受する。 MuJoCoベンチマーク実験の結果、MetaDiffuserは他の強力なオフラインメタRLベースラインよりも優れており、拡散アーキテクチャの優れた条件生成能力を示している。

関連論文リスト

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文参考訳（メタデータ） (2024-10-16T04:56:43Z)
Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [41.7426496795769]
オフラインメタRLの効率的な一般化を実現するメタ決定変換器(Meta-DT)を提案する。我々は、コンテキスト認識の世界モデルを用いて、コンパクトなタスク表現を学習し、それをコンテキスト条件として注入し、タスク指向のシーケンス生成を誘導する。また,Meta-DTでは,ベースラインが強いのに比べ,少ない,ゼロショットの一般化能力が優れていることを示す。
論文参考訳（メタデータ） (2024-10-15T09:51:30Z)
DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation [10.645244994430483]
本稿では,適応再評価フレームワークを用いた拡散モデル誘導型インプリシットQ-ラーニングを導入したオフライン強化学習(オフラインRL)手法を提案する。拡散モデルを利用して状態-作用系列の分布を学習し、よりバランスよく適応的な意思決定のために値関数を組み込む。 Maze2D、AntMaze、Kitchenといったタスクで示されているように、DIARは長い水平、スパース・リワード環境において、常に最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2024-10-15T07:09:56Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T14:14:11Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Dynamic Channel Access via Meta-Reinforcement Learning [0.8223798883838329]
モデル非依存型メタラーニング(MAML)の手法を取り入れたメタDRLフレームワークを提案する。同じ分布から引き出された異なるタスクに適応するためには、勾配降下がわずかに必要であることが示される。
論文参考訳（メタデータ） (2021-12-24T15:04:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。