論文の概要: Accurate and Efficient World Modeling with Masked Latent Transformers
- arxiv url: http://arxiv.org/abs/2507.04075v1
- Date: Sat, 05 Jul 2025 15:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.006088
- Title: Accurate and Efficient World Modeling with Masked Latent Transformers
- Title(参考訳): マスク付潜時変圧器を用いた高精度かつ効率的な世界モデリング
- Authors: Maxime Burchi, Radu Timofte,
- Abstract要約: 本研究では,MaskGIT予測を用いた空間潜在状態を用いた世界モデルであるEMERALDを紹介した。
Crafterベンチマークでは、EMERALDは最先端のパフォーマンスを新たに達成し、1000万の環境ステップで人間の専門家のパフォーマンスを上回る最初の方法となった。
- 参考スコア(独自算出の注目度): 58.0159270859475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Dreamer algorithm has recently obtained remarkable performance across diverse environment domains by training powerful agents with simulated trajectories. However, the compressed nature of its world model's latent space can result in the loss of crucial information, negatively affecting the agent's performance. Recent approaches, such as $\Delta$-IRIS and DIAMOND, address this limitation by training more accurate world models. However, these methods require training agents directly from pixels, which reduces training efficiency and prevents the agent from benefiting from the inner representations learned by the world model. In this work, we propose an alternative approach to world modeling that is both accurate and efficient. We introduce EMERALD (Efficient MaskEd latent tRAnsformer worLD model), a world model using a spatial latent state with MaskGIT predictions to generate accurate trajectories in latent space and improve the agent performance. On the Crafter benchmark, EMERALD achieves new state-of-the-art performance, becoming the first method to surpass human experts performance within 10M environment steps. Our method also succeeds to unlock all 22 Crafter achievements at least once during evaluation.
- Abstract(参考訳): Dreamerアルゴリズムは、様々な環境領域において、シミュレーションされた軌道で強力なエージェントを訓練することで、目覚ましい性能を得た。
しかし、世界モデルの潜在空間の圧縮された性質は、重要な情報が失われ、エージェントの性能に悪影響を及ぼす可能性がある。
最近のアプローチ、例えば$\Delta$-IRISやDIAMONDは、より正確な世界モデルのトレーニングによってこの制限に対処している。
しかし,これらの手法では,画素から直接のトレーニングエージェントが必要であるため,トレーニング効率が低下し,世界モデルで学習した内部表現の恩恵を受けない。
本研究では,正確かつ効率的な世界モデリング手法を提案する。
The EMERALD (Efficient MaskEd Latent tRAnsformer worLD model), a world model using a spatial latent state with MaskGIT predictions to generate accurate trajectories in latent space and the agent performance。
Crafterベンチマークでは、EMERALDは最先端のパフォーマンスを新たに達成し、1000万の環境ステップで人間の専門家のパフォーマンスを上回る最初の方法となった。
また,評価中に少なくとも1回は,22の工芸工芸品の成果を解き放つことに成功している。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。
本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。
TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文 参考訳(メタデータ) (2025-03-06T13:18:37Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。