論文の概要: PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
- arxiv url: http://arxiv.org/abs/2511.09057v2
- Date: Fri, 14 Nov 2025 01:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.719813
- Title: PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
- Title(参考訳): PAN: 汎用的・相互可能・長期的世界シミュレーションのための世界モデル
- Authors: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing,
- Abstract要約: PANは、汎用的で対話性があり、長い水平世界モデルである。
歴史と自然言語のアクションを前提とした高品質なビデオシミュレーションにより、将来の世界の状態を予測します。
実験により, PANは行動条件付き世界シミュレーション, 長期予測, シミュレーション推論において高い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 49.805071498152536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.
- Abstract(参考訳): 世界モデルにより、知的エージェントは、その行動に反応し、計画と戦略に従って世界がどのように進化するかを想像し、予測し、推論することができる。
最近のビデオ生成モデルは、現実的な視覚的シーケンスを生成するが、通常は、因果制御、対話性、あるいは目的的推論に必要な長い水平一貫性を伴わずに、即時からフルのビデオ的に動作する。
一方、既存の世界モデリングの取り組みは、しばしば制限されたドメイン(例えば、物理、ゲーム、または3Dシーンのダイナミクス)に焦点を合わせ、深度と制御性に制限があり、様々な環境や相互作用形式をまたいだ一般化に苦慮している。
本研究では,歴史と自然言語の操作を前提とした高品質なビデオシミュレーションにより,未来世界状態を予測する汎用的,対話的,長期的世界モデルであるPANを紹介する。
PANは、大規模言語モデル(LLM)に基づく自己回帰潜在ダイナミクスのバックボーンをベースとしたジェネレーティブ潜時予測(GLP)アーキテクチャを採用し、広範なテキストベースの知識のシミュレーションを基盤として、言語特定アクションの条件付けを可能にし、視覚的知覚的詳細かつ時間的に整合した視覚的観察を再構成するビデオ拡散復号器を用いて、潜時空間推論(想像)と実現可能な世界力学(現実)の統一を実現する。
さまざまなドメインにまたがる大規模なビデオアクションペアに基づいてトレーニングされたPANは、コヒーレントで長期的ダイナミクスを備えたオープンドメイン、アクション条件付きシミュレーションをサポートする。
広汎な実験により、PANは、他のビデオジェネレータや世界モデルと比較して、行動条件付き世界シミュレーション、長期水平予測、シミュレーション推論において高い性能を達成し、推論と行動のための将来の世界状態の予測シミュレーションを可能にする一般的な世界モデルに向けて一歩踏み出した。
関連論文リスト
- Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - Pandora: Towards General World Model with Natural Language Actions and Video States [61.30962762314734]
Pandoraは、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自動回帰拡散モデルである。
Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。
論文 参考訳(メタデータ) (2024-06-12T18:55:51Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。