Fugu-MT 論文翻訳(概要): Accurate and Efficient World Modeling with Masked Latent Transformers

論文の概要: Accurate and Efficient World Modeling with Masked Latent Transformers

arxiv url: http://arxiv.org/abs/2507.04075v1
Date: Sat, 05 Jul 2025 15:49:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.006088
Title: Accurate and Efficient World Modeling with Masked Latent Transformers
Title（参考訳）: マスク付潜時変圧器を用いた高精度かつ効率的な世界モデリング
Authors: Maxime Burchi, Radu Timofte,
Abstract要約: 本研究では,MaskGIT予測を用いた空間潜在状態を用いた世界モデルであるEMERALDを紹介した。 Crafterベンチマークでは、EMERALDは最先端のパフォーマンスを新たに達成し、1000万の環境ステップで人間の専門家のパフォーマンスを上回る最初の方法となった。
参考スコア（独自算出の注目度）: 58.0159270859475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Dreamer algorithm has recently obtained remarkable performance across diverse environment domains by training powerful agents with simulated trajectories. However, the compressed nature of its world model's latent space can result in the loss of crucial information, negatively affecting the agent's performance. Recent approaches, such as $\Delta$-IRIS and DIAMOND, address this limitation by training more accurate world models. However, these methods require training agents directly from pixels, which reduces training efficiency and prevents the agent from benefiting from the inner representations learned by the world model. In this work, we propose an alternative approach to world modeling that is both accurate and efficient. We introduce EMERALD (Efficient MaskEd latent tRAnsformer worLD model), a world model using a spatial latent state with MaskGIT predictions to generate accurate trajectories in latent space and improve the agent performance. On the Crafter benchmark, EMERALD achieves new state-of-the-art performance, becoming the first method to surpass human experts performance within 10M environment steps. Our method also succeeds to unlock all 22 Crafter achievements at least once during evaluation.
Abstract（参考訳）: Dreamerアルゴリズムは、様々な環境領域において、シミュレーションされた軌道で強力なエージェントを訓練することで、目覚ましい性能を得た。しかし、世界モデルの潜在空間の圧縮された性質は、重要な情報が失われ、エージェントの性能に悪影響を及ぼす可能性がある。最近のアプローチ、例えば$\Delta$-IRISやDIAMONDは、より正確な世界モデルのトレーニングによってこの制限に対処している。しかし,これらの手法では,画素から直接のトレーニングエージェントが必要であるため,トレーニング効率が低下し,世界モデルで学習した内部表現の恩恵を受けない。本研究では,正確かつ効率的な世界モデリング手法を提案する。 The EMERALD (Efficient MaskEd Latent tRAnsformer worLD model), a world model using a spatial latent state with MaskGIT predictions to generate accurate trajectories in latent space and the agent performance。 Crafterベンチマークでは、EMERALDは最先端のパフォーマンスを新たに達成し、1000万の環境ステップで人間の専門家のパフォーマンスを上回る最初の方法となった。また,評価中に少なくとも1回は,22の工芸工芸品の成果を解き放つことに成功している。

関連論文リスト

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning [4.079361316237972]
モデルベース強化学習(MBRL)の最近の進歩は、Atari100kベンチマークで超人的レベルの性能を実現している。 MBRLエージェントは、他のタスクでは大幅にパフォーマンスが低下しているにもかかわらず、いくつかのタスクで人間を劇的に上回り、前者は集計基準を膨らませた。本稿では, 自己整合性(自己整合性, 自己整合性, 自己整合性(自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性,
論文参考訳（メタデータ） (2025-05-26T08:52:45Z)
WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文参考訳（メタデータ） (2025-04-23T02:54:31Z)
Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文参考訳（メタデータ） (2024-10-10T11:52:07Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
DITTO: Offline Imitation Learning with World Models [21.419536711242962]
DITTOは、これらの3つの問題すべてに対処するオフラインの模倣学習アルゴリズムである。標準的な強化学習アルゴリズムを用いて,この多段階潜時分岐を最適化する。我々の結果は、世界モデルの創造的利用が、シンプルで堅牢で、高度にパフォーマンスの高い政策学習フレームワークにどのように結びつくかを示している。
論文参考訳（メタデータ） (2023-02-06T19:41:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。