論文の概要: Diffusion-based Dynamics Models for Long-Horizon Rollout in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.19189v1
- Date: Wed, 29 May 2024 15:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:31:41.508963
- Title: Diffusion-based Dynamics Models for Long-Horizon Rollout in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における長軸ロールアウトの拡散に基づくダイナミクスモデル
- Authors: Hanye Zhao, Xiaoshen Han, Zhengbang Zhu, Minghuan Liu, Yong Yu, Weinan Zhang,
- Abstract要約: 我々はDyDiffと略してDynamics Diffusionを提案し、学習ポリシーからDMに情報を反復的に注入することができる。
DyDiffはポリシーの一貫性を維持しながら、長時間のロールアウトの精度を確保し、モデルフリーのアルゴリズムに容易にデプロイできる。
- 参考スコア(独自算出の注目度): 31.11084939047226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the great success of diffusion models (DMs) in generating realistic synthetic vision data, many researchers have investigated their potential in decision-making and control. Most of these works utilized DMs to sample directly from the trajectory space, where DMs can be viewed as a combination of dynamics models and policies. In this work, we explore how to decouple DMs' ability as dynamics models in fully offline settings, allowing the learning policy to roll out trajectories. As DMs learn the data distribution from the dataset, their intrinsic policy is actually the behavior policy induced from the dataset, which results in a mismatch between the behavior policy and the learning policy. We propose Dynamics Diffusion, short as DyDiff, which can inject information from the learning policy to DMs iteratively. DyDiff ensures long-horizon rollout accuracy while maintaining policy consistency and can be easily deployed on model-free algorithms. We provide theoretical analysis to show the advantage of DMs on long-horizon rollout over models and demonstrate the effectiveness of DyDiff in the context of offline reinforcement learning, where the rollout dataset is provided but no online environment for interaction. Our code is at https://github.com/FineArtz/DyDiff.
- Abstract(参考訳): 現実的な合成視覚データの生成において拡散モデル(DM)が大きな成功をおさめ、多くの研究者が意思決定と制御の可能性について研究している。
これらの研究の多くは、DMを軌道空間から直接サンプリングするために利用し、DMを力学モデルとポリシーの組み合わせと見なすことができる。
本研究では、完全にオフライン設定でDMのダイナミックスモデルとしての能力を分離し、学習ポリシーが軌道を展開できるようにする方法について検討する。
DMはデータセットからデータ分布を学習するが、本質的なポリシーはデータセットから引き起こされた行動ポリシーであり、結果として行動ポリシーと学習ポリシーのミスマッチが生じる。
我々はDyDiffと略してDynamics Diffusionを提案し、学習ポリシーからDMに情報を反復的に注入することができる。
DyDiffはポリシーの一貫性を維持しながら、長時間のロールアウトの精度を確保し、モデルフリーのアルゴリズムに容易にデプロイできる。
本研究では,DyDiff のオフライン強化学習における長期ロールアウトにおける DM の利点を理論的に示すとともに,ロールアウトデータセットが提供されるがインタラクションのためのオンライン環境が存在しない場合において,DyDiff の有効性を示す。
私たちのコードはhttps://github.com/FineArtz/DyDiff.orgにある。
関連論文リスト
- Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Slight Corruption in Pre-training Data Makes Better Diffusion Models [71.90034201302397]
拡散モデル(DM)は、高品質な画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
DMは大規模なデータセットでの広範な事前トレーニングの恩恵を受ける。
しかしながら、事前トレーニングデータセットは、しばしば、データを正確に記述しないような、破損したペアを含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
論文 参考訳(メタデータ) (2024-05-30T21:35:48Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - A Comprehensive Survey on Knowledge Distillation of Diffusion Models [0.0]
拡散モデル(DM)はニューラルネットワークを用いてスコア関数を指定する。
本チュートリアルは, DMの蒸留法を応用したり, この分野の研究プロジェクトに乗り出したいと願う, 生成モデルの基本的知識を持つ個人を対象としている。
論文 参考訳(メタデータ) (2023-04-09T15:49:28Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。