論文の概要: Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement
- arxiv url: http://arxiv.org/abs/2410.11448v2
- Date: Thu, 24 Oct 2024 08:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:49:24.521759
- Title: Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement
- Title(参考訳): Meta-DT: World Model Disentanglement を用いた条件付きシーケンスモデルとしてのオフライン Meta-RL
- Authors: Zhi Wang, Li Zhang, Wenhao Wu, Yuanheng Zhu, Dongbin Zhao, Chunlin Chen,
- Abstract要約: オフラインメタRLの効率的な一般化を実現するメタ決定変換器(Meta-DT)を提案する。
我々は、コンテキスト認識の世界モデルを用いて、コンパクトなタスク表現を学習し、それをコンテキスト条件として注入し、タスク指向のシーケンス生成を誘導する。
また,Meta-DTでは,ベースラインが強いのに比べ,少ない,ゼロショットの一般化能力が優れていることを示す。
- 参考スコア(独自算出の注目度): 41.7426496795769
- License:
- Abstract: A longstanding goal of artificial general intelligence is highly capable generalists that can learn from diverse experiences and generalize to unseen tasks. The language and vision communities have seen remarkable progress toward this trend by scaling up transformer-based models trained on massive datasets, while reinforcement learning (RL) agents still suffer from poor generalization capacity under such paradigms. To tackle this challenge, we propose Meta Decision Transformer (Meta-DT), which leverages the sequential modeling ability of the transformer architecture and robust task representation learning via world model disentanglement to achieve efficient generalization in offline meta-RL. We pretrain a context-aware world model to learn a compact task representation, and inject it as a contextual condition to the causal transformer to guide task-oriented sequence generation. Then, we subtly utilize history trajectories generated by the meta-policy as a self-guided prompt to exploit the architectural inductive bias. We select the trajectory segment that yields the largest prediction error on the pretrained world model to construct the prompt, aiming to encode task-specific information complementary to the world model maximally. Notably, the proposed framework eliminates the requirement of any expert demonstration or domain knowledge at test time. Experimental results on MuJoCo and Meta-World benchmarks across various dataset types show that Meta-DT exhibits superior few and zero-shot generalization capacity compared to strong baselines while being more practical with fewer prerequisites. Our code is available at https://github.com/NJU-RL/Meta-DT.
- Abstract(参考訳): 人工知能の長年の目標は、多様な経験から学び、目に見えないタスクに一般化できる、非常に有能なジェネラリストである。
言語と視覚のコミュニティは、大規模なデータセットでトレーニングされたトランスフォーマーベースのモデルをスケールアップすることで、この傾向に向かって顕著な進歩を遂げている。
この課題に対処するために,メタ決定変換器 (Meta-DT) を提案する。これはトランスアーキテクチャの逐次的モデリング能力と,世界モデル不整合による堅牢なタスク表現学習を活用して,オフラインメタRLの効率的な一般化を実現する。
我々は,文脈認識の世界モデルを用いて,タスク表現を学習し,それを因果変換器に文脈条件として注入し,タスク指向シーケンス生成を誘導する。
そして,メタ政治が生み出した歴史軌跡を自己誘導的プロンプトとして活用し,そのアーキテクチャ的帰納バイアスを利用する。
本研究では、事前訓練された世界モデル上で最大の予測誤差をもたらす軌道セグメントを選択してプロンプトを構築し、世界モデルに補完するタスク固有情報を最大に符号化することを目的とする。
特に、提案されたフレームワークは、テスト時に専門家のデモンストレーションやドメイン知識を必要としない。
様々なデータセットタイプにわたる MuJoCo と Meta-World ベンチマークの実験結果から,Meta-DT は強いベースラインに比べて,より少ない前提条件でより実用的でありながら,より少数かつゼロショットの一般化能力を示すことが示された。
私たちのコードはhttps://github.com/NJU-RL/Meta-DT.comで利用可能です。
関連論文リスト
- Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL [25.76141096396645]
オフラインメタRL(MetaDiffuser)のためのタスク指向条件付き拡散プランナを提案する。
提案するフレームワークは,テストタスクから収集したウォームスタートデータの品質に対するロバストさを享受する。
MuJoCoベンチマークの実験結果は、MetaDiffuserが他の強力なオフラインメタRLベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2023-05-31T15:01:38Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Updater-Extractor Architecture for Inductive World State Representations [0.0]
トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
論文 参考訳(メタデータ) (2021-04-12T14:30:11Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。