論文の概要: MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft
- arxiv url: http://arxiv.org/abs/2504.08388v1
- Date: Fri, 11 Apr 2025 09:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:01.017724
- Title: MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft
- Title(参考訳): MineWorld:Minecraftのリアルタイムかつオープンソースインタラクティブな世界モデル
- Authors: Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian,
- Abstract要約: 我々はMinecraft上でリアルタイムインタラクティブな世界モデルであるMineWorldを提案する。
MineWorldはビジュアルアクション自動回帰トランスフォーマーによって駆動され、ペア化されたゲームシーンと対応するアクションを入力として取り込む。
本研究では,各フレームの空間的冗長トークンを同時に予測する並列デコーディングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 21.530000271719803
- License:
- Abstract: World modeling is a crucial task for enabling intelligent agents to effectively interact with humans and operate in dynamic environments. In this work, we propose MineWorld, a real-time interactive world model on Minecraft, an open-ended sandbox game which has been utilized as a common testbed for world modeling. MineWorld is driven by a visual-action autoregressive Transformer, which takes paired game scenes and corresponding actions as input, and generates consequent new scenes following the actions. Specifically, by transforming visual game scenes and actions into discrete token ids with an image tokenizer and an action tokenizer correspondingly, we consist the model input with the concatenation of the two kinds of ids interleaved. The model is then trained with next token prediction to learn rich representations of game states as well as the conditions between states and actions simultaneously. In inference, we develop a novel parallel decoding algorithm that predicts the spatial redundant tokens in each frame at the same time, letting models in different scales generate $4$ to $7$ frames per second and enabling real-time interactions with game players. In evaluation, we propose new metrics to assess not only visual quality but also the action following capacity when generating new scenes, which is crucial for a world model. Our comprehensive evaluation shows the efficacy of MineWorld, outperforming SoTA open-sourced diffusion based world models significantly. The code and model have been released.
- Abstract(参考訳): 世界モデリングは、インテリジェントエージェントが人間と効果的に対話し、動的な環境で操作できるようにするための重要なタスクである。
本研究では,マインクラフトのリアルタイムインタラクティブな世界モデルであるMineWorldを提案する。
MineWorldはビジュアルアクション自動回帰トランスフォーマーによって駆動され、ペア化されたゲームシーンと対応するアクションを入力として取り、アクションに続く連続した新しいシーンを生成する。
具体的には、視覚ゲームシーンとアクションを画像トークン化器とアクショントークン化器で個別のトークンIDに変換することにより、2種類のIDを相互に連結したモデル入力を構成する。
その後、モデルは次のトークン予測を用いてトレーニングされ、ゲーム状態の豊かな表現と状態とアクションの間の条件を同時に学習する。
推論において,各フレーム内の空間的冗長トークンを同時に予測し,異なるスケールのモデルで毎秒4〜7ドルフレームを生成し,ゲームプレイヤとのリアルタイム対話を可能にする並列復号アルゴリズムを開発した。
評価では、視覚的品質だけでなく、世界モデルにとって重要な新たなシーンを生成する際の行動に追従する行動を評価するための新しい指標を提案する。
我々は,MineWorldの有効性を総合的に評価し,SoTAオープンソース拡散に基づく世界モデルを大幅に上回る結果を得た。
コードとモデルがリリースされた。
関連論文リスト
- Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination [25.62602420895531]
DreMaは、実世界の学習された明示的な表現とそのダイナミクスを使って、デジタル双生児を構築するための新しいアプローチである。
DreMaはタスク毎の1つの例から新しい物理タスクを学べることを示す。
論文 参考訳(メタデータ) (2024-12-19T15:38:15Z) - Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video [23.484070818399]
Video2Gameは、現実世界のシーンのビデオを自動的にリアルでインタラクティブなゲーム環境に変換する新しいアプローチである。
リアルタイムに高リアルなレンダリングを作成できるだけでなく、インタラクティブなゲームも構築できることが示されています。
論文 参考訳(メタデータ) (2024-04-15T14:32:32Z) - WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z) - Slot Structured World Models [0.0]
最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクトの埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクトの埋め込み間の相互作用をモデル化する。
Slot Structured World Models (SSWM)は、オブジェクト中心のエンコーダと潜在グラフベースの動的モデルを組み合わせた世界モデルのクラスである。
論文 参考訳(メタデータ) (2024-01-08T21:19:30Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Infusing Commonsense World Models with Graph Knowledge [89.27044249858332]
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討する。
基礎となるゲーム状態のグラフ表現は、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練するために使用することができる。
論文 参考訳(メタデータ) (2023-01-13T19:58:27Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。