Fugu-MT 論文翻訳(概要): Masked Generative Priors Improve World Models Sequence Modelling Capabilities

論文の概要: Masked Generative Priors Improve World Models Sequence Modelling Capabilities

arxiv url: http://arxiv.org/abs/2410.07836v1
Date: Mon, 28 Oct 2024 14:46:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 14:36:04.988352
Title: Masked Generative Priors Improve World Models Sequence Modelling Capabilities
Title（参考訳）: Masked Generative PriorsがWorld Models Sequence Modelling機能を改善する
Authors: Cristian Meo, Mircea Lica, Zarif Ikram, Akihiro Nakano, Vedant Shah, Aniket Rajiv Didolkar, Dianbo Liu, Anirudh Goyal, Justin Dauwels,
Abstract要約: Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
参考スコア（独自算出の注目度）: 19.700020499490137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Reinforcement Learning (RL) has become the leading approach for creating artificial agents in complex environments. Model-based approaches, which are RL methods with world models that predict environment dynamics, are among the most promising directions for improving data efficiency, forming a critical step toward bridging the gap between research and real-world deployment. In particular, world models enhance sample efficiency by learning in imagination, which involves training a generative sequence model of the environment in a self-supervised manner. Recently, Masked Generative Modelling has emerged as a more efficient and superior inductive bias for modelling and generating token sequences. Building on the Efficient Stochastic Transformer-based World Models (STORM) architecture, we replace the traditional MLP prior with a Masked Generative Prior (e.g., MaskGIT Prior) and introduce GIT-STORM. We evaluate our model on two downstream tasks: reinforcement learning and video prediction. GIT-STORM demonstrates substantial performance gains in RL tasks on the Atari 100k benchmark. Moreover, we apply Transformer-based World Models to continuous action environments for the first time, addressing a significant gap in prior research. To achieve this, we employ a state mixer function that integrates latent state representations with actions, enabling our model to handle continuous control tasks. We validate this approach through qualitative and quantitative analyses on the DeepMind Control Suite, showcasing the effectiveness of Transformer-based World Models in this new domain. Our results highlight the versatility and efficacy of the MaskGIT dynamics prior, paving the way for more accurate world models and effective RL policies.
Abstract（参考訳）: 深層強化学習(Deep Reinforcement Learning, RL)は、複雑な環境で人工エージェントを作成するための主要なアプローチとなっている。モデルベースのアプローチは、環境力学を予測する世界モデルを備えたRL手法であり、データ効率を改善する上で最も有望な方向のひとつであり、研究と実世界のデプロイメントのギャップを埋めるための重要なステップを形成する。特に、世界モデルは、自己監督的な方法で環境の生成シーケンスモデルを訓練する、想像力の学習によってサンプル効率を向上させる。近年、Masked Generative Modellingは、トークンシーケンスのモデリングと生成において、より効率的で優れた帰納バイアスとして出現している。効率的なStochastic Transformer-based World Models(STORM)アーキテクチャに基づいており、従来のMLPをMasked Generative Prior(例:MaskGIT Prior)に置き換え、GIT-STORMを導入しています。我々は、強化学習とビデオ予測という2つの下流タスクにおいて、我々のモデルを評価する。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。さらに,トランスフォーマーをベースとした世界モデルを連続行動環境に適用し,先行研究における大きなギャップに対処する。これを実現するために、潜在状態表現とアクションを統合するステートミキサー関数を使用し、モデルが連続的な制御タスクを処理できるようにします。我々はこの手法をDeepMind Control Suiteの質的,定量的な分析を通じて検証し,新しい領域におけるTransformer-based World Modelsの有効性を示す。この結果は,MaskGITのダイナミクスの汎用性と有効性を強調し,より正確な世界モデルと効果的なRLポリシーの道を開くものである。

関連論文リスト

Transformer World Model for Sample Efficient Multi-Agent Reinforcement Learning [2.3964255330849356]
我々は、強化学習のための新しいトランスフォーマーベース世界モデルであるMulti-Agent Transformer World Model(MATWM)を提案する。 MATWMは、分散化された想像力フレームワークと半集中型の批評家とチームメイト予測モジュールを組み合わせる。我々は,StarCraft Multi-Agent Challenge, PettingZoo, MeltingPotなど,幅広いベンチマークでMATWMを評価した。
論文参考訳（メタデータ） (2025-06-23T11:47:17Z)
HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling [52.58723853697152]
DNA配列モデリングのためのハイブリッドアーキテクチャ蒸留(HAD)手法を提案する。我々はNTv2-500Mを教師モデルとして採用し,グループマスキング戦略を考案した。類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
論文参考訳（メタデータ） (2025-05-27T07:57:35Z)
Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。政策とともに世界モデルを動的に適用する枠組みを提案する。我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文参考訳（メタデータ） (2025-05-19T20:14:33Z)
PEER pressure: Model-to-Model Regularization for Single Source Domain Generalization [12.15086255236961]
対象領域におけるこのような拡張に基づく手法の性能は、訓練中に普遍的に変動することを示す。本稿では,新しい一般化法を提案する。 Space Ensemble with Entropy Regularization (PEER) – プロキシモデルを使用して、拡張データを学ぶ。
論文参考訳（メタデータ） (2025-05-19T06:01:11Z)
Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。 Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-22T12:40:03Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Multiscale Generative Models: Improving Performance of a Generative Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2022-01-24T13:05:56Z)
KNODE-MPC: A Knowledge-based Data-driven Predictive Control Framework for Aerial Robots [5.897728689802829]
我々は、知識に基づくニューラル常微分方程式(KNODE)というディープラーニングツールを用いて、第一原理から得られたモデルを拡張する。得られたハイブリッドモデルは、名目上の第一原理モデルと、シミュレーションまたは実世界の実験データから学習したニューラルネットワークの両方を含む。閉ループ性能を改善するため、ハイブリッドモデルはKNODE-MPCとして知られる新しいMPCフレームワークに統合される。
論文参考訳（メタデータ） (2021-09-10T12:09:18Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。