論文の概要: WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG
- arxiv url: http://arxiv.org/abs/2603.23497v1
- Date: Tue, 24 Mar 2026 17:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.63249
- Title: WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG
- Title(参考訳): WildWorld: 動的ワールドモデリングのための大規模データセット
- Authors: Zhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang,
- Abstract要約: 明示的な状態アノテーションを備えた大規模アクション条件付き世界モデリングデータセットであるWildWorldを提案する。
セマンティックなリッチなアクションをモデル化し、長期的状態整合性を維持する上での課題を示す。
- 参考スコア(独自算出の注目度): 38.24292688170687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamical systems theory and reinforcement learning view world evolution as latent-state dynamics driven by actions, with visual observations providing partial information about the state. Recent video world models attempt to learn this action-conditioned dynamics from data. However, existing datasets rarely match the requirement: they typically lack diverse and semantically meaningful action spaces, and actions are directly tied to visual observations rather than mediated by underlying states. As a result, actions are often entangled with pixel-level changes, making it difficult for models to learn structured world dynamics and maintain consistent evolution over long horizons. In this paper, we propose WildWorld, a large-scale action-conditioned world modeling dataset with explicit state annotations, automatically collected from a photorealistic AAA action role-playing game (Monster Hunter: Wilds). WildWorld contains over 108 million frames and features more than 450 actions, including movement, attacks, and skill casting, together with synchronized per-frame annotations of character skeletons, world states, camera poses, and depth maps. We further derive WildBench to evaluate models through Action Following and State Alignment. Extensive experiments reveal persistent challenges in modeling semantically rich actions and maintaining long-horizon state consistency, highlighting the need for state-aware video generation. The project page is https://shandaai.github.io/wildworld-project/.
- Abstract(参考訳): 動的システム理論と強化学習 世界の進化は、行動によって駆動される潜在状態のダイナミクスであり、その状態に関する部分的な情報を提供する視覚的観察である。
最近のビデオワールドモデルは、この行動条件付きダイナミクスをデータから学ぼうとしている。
しかし、既存のデータセットは要求に合致することは滅多になく、多様で意味のあるアクション空間が欠如しており、アクションは下層の状態によって媒介されるのではなく、直接視覚的な観察に結びついている。
その結果、アクションはしばしばピクセルレベルの変化に絡まっており、モデルが構造化された世界力学を学習し、長い地平線上で一貫した進化を維持することは困難である。
本稿では,AAAアクションロールプレイングゲーム(Monster Hunter: Wilds)から自動的に収集される,明示的な状態アノテーションを備えた大規模アクション条件付き世界モデリングデータセットであるWildWorldを提案する。
WildWorldには1億800万以上のフレームがあり、動き、攻撃、スキルキャスティングを含む450以上のアクションと、文字スケルトン、世界状態、カメラポーズ、深度マップの同期されたフレーム単位のアノテーションがある。
我々はさらにWildBenchを誘導し、Action followingとState Alignmentを通じてモデルを評価する。
大規模な実験は、セマンティックにリッチなアクションをモデル化し、長い水平状態の一貫性を維持する上で、永続的な課題を明らかにし、状態認識のビデオ生成の必要性を強調している。
プロジェクトページはhttps://shandaai.github.io/wildworld-project/。
関連論文リスト
- LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models [32.92934803081681]
近年の世代別ビデオワールドモデルは、視覚環境の進化をシミュレートすることを目的としており、観察者はカメラ制御によってシーンをインタラクティブに探索することができる。
彼らは、世界は観察者の視野内でしか進化しないと暗黙的に仮定している。
オブジェクトがオブザーバの視点を離れると、その状態はメモリ内で"凍結"され、その後同じ領域を再考しても、その間に発生すべき出来事を反映できないことがしばしばある。
永続的な世界進化をサポートするために,ビデオワールドモデルを拡張する新しいフレームワークであるLiveWorldを提案する。
論文 参考訳(メタデータ) (2026-03-07T10:31:39Z) - DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos [110.98100817695307]
私たちはDreamDojoを紹介します。DreamDojoは、多種多様なインタラクションと、エゴセントリックな人間ビデオの44万時間から厳密なコントロールを学ぶ基礎的な世界モデルです。
本研究は, 遠隔操作, 政策評価, モデルベース計画など, 生成的世界モデルに基づくいくつかの重要な応用を可能にする。
論文 参考訳(メタデータ) (2026-02-06T18:49:43Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft [21.530000271719803]
我々はMinecraft上でリアルタイムインタラクティブな世界モデルであるMineWorldを提案する。
MineWorldはビジュアルアクション自動回帰トランスフォーマーによって駆動され、ペア化されたゲームシーンと対応するアクションを入力として取り込む。
本研究では,各フレームの空間的冗長トークンを同時に予測する並列デコーディングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-04-11T09:41:04Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - Pandora: Towards General World Model with Natural Language Actions and Video States [61.30962762314734]
Pandoraは、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自動回帰拡散モデルである。
Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。
論文 参考訳(メタデータ) (2024-06-12T18:55:51Z) - WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z) - Infusing Commonsense World Models with Graph Knowledge [89.27044249858332]
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討する。
基礎となるゲーム状態のグラフ表現は、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練するために使用することができる。
論文 参考訳(メタデータ) (2023-01-13T19:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。