論文の概要: Solaris: Building a Multiplayer Video World Model in Minecraft
- arxiv url: http://arxiv.org/abs/2602.22208v2
- Date: Thu, 26 Feb 2026 04:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 14:31:24.123859
- Title: Solaris: Building a Multiplayer Video World Model in Minecraft
- Title(参考訳): Solaris:Minecraftでマルチプレイヤービデオワールドモデルを作る
- Authors: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie,
- Abstract要約: 既存のアクション条件付きビデオ生成モデル(ビデオワールドモデル)は、単一エージェントの視点に限られる。
我々は,一貫したマルチビュー観測をシミュレートするマルチプレイヤービデオワールドモデルSolarisを紹介する。
我々は1264万のマルチプレイヤーフレームを収集し、マルチプレイヤー運動、メモリ、グラウンド、ビルディング、ビュー整合性の評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.935990718354176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.
- Abstract(参考訳): 既存のアクション条件付きビデオ生成モデル(ビデオワールドモデル)は単一エージェントの視点に限られており、実世界の環境におけるマルチエージェントの相互作用を捉えていない。
我々は,一貫したマルチビュー観測をシミュレートするマルチプレイヤービデオワールドモデルSolarisを紹介する。
これを実現するために,Minecraftなどのビデオゲーム上で,堅牢で連続的で自動的なデータ収集を目的としたマルチプレイヤーデータシステムを開発した。
シングルプレイヤー設定用に構築された従来のプラットフォームとは異なり、当社のシステムは協調型マルチエージェントインタラクションと同期ビデオ+アクションキャプチャをサポートしています。
このシステムを用いて1264万のマルチプレイヤーフレームを収集し,マルチプレイヤーの動き,メモリ,グラウンド,ビルディング,ビューの一貫性を評価するための評価フレームワークを提案する。
Solarisは、双方向、因果、自己強制のトレーニングを組み合わせた、シングルプレイヤからマルチプレイヤモデリングへ、段階的に移行するパイプラインを使用してトレーニングする。
最終段階では、より長い水平の教師を可能にするメモリ効率のよいセルフフォース変種であるチェックポイント・セルフフォースを導入する。
結果は、既存のベースラインよりも優れたアーキテクチャとトレーニング設計を示します。
システムとモデルをオープンソース化することで、次世代のマルチエージェントワールドモデルの基礎を築きたいと考えています。
関連論文リスト
- Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation [20.943599420478105]
本稿では,自律運転におけるマルチモーダルなマルチビュービデオ生成手法を提案する。
本手法では,マルチモーダルなマルチビュードライビングシーン映像を統一的なフレームワークで生成する。
実世界の自律走行データセットであるnuScenesに関する我々の実験は、高い忠実度と制御性でマルチモーダルなマルチビュー都市シーンビデオを生成することができることを示している。
論文 参考訳(メタデータ) (2025-08-20T00:51:36Z) - Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model [15.16063778402193]
Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
論文 参考訳(メタデータ) (2025-08-18T15:28:53Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft [21.530000271719803]
我々はMinecraft上でリアルタイムインタラクティブな世界モデルであるMineWorldを提案する。
MineWorldはビジュアルアクション自動回帰トランスフォーマーによって駆動され、ペア化されたゲームシーンと対応するアクションを入力として取り込む。
本研究では,各フレームの空間的冗長トークンを同時に予測する並列デコーディングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-04-11T09:41:04Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。