論文の概要: VDAWorld: World Modelling via VLM-Directed Abstraction and Simulation
- arxiv url: http://arxiv.org/abs/2512.11061v1
- Date: Thu, 11 Dec 2025 19:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.540106
- Title: VDAWorld: World Modelling via VLM-Directed Abstraction and Simulation
- Title(参考訳): VDAWorld: VLMによる抽象化とシミュレーションによる世界モデリング
- Authors: Felix O'Mahony, Roberto Cipolla, Ayush Tewari,
- Abstract要約: VDAWorldは、視覚言語モデル(VLM)がインテリジェントなエージェントとして機能し、このプロセスを編成するフレームワークである。
VLMは、一連の視覚ツールから選択することで、グラウンドド(2Dまたは3D)シーン表現を自律的に構築する。
静的なシーンから潜在ダイナミクスを推論して、妥当な将来の状態を予測できる。
- 参考スコア(独自算出の注目度): 23.86958300272144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative video models, a leading approach to world modeling, face fundamental limitations. They often violate physical and logical rules, lack interactivity, and operate as opaque black boxes ill-suited for building structured, queryable worlds. To overcome these challenges, we propose a new paradigm focused on distilling an image caption pair into a tractable, abstract representation optimized for simulation. We introduce VDAWorld, a framework where a Vision-Language Model (VLM) acts as an intelligent agent to orchestrate this process. The VLM autonomously constructs a grounded (2D or 3D) scene representation by selecting from a suite of vision tools, and accordingly chooses a compatible physics simulator (e.g., rigid body, fluid) to act upon it. VDAWorld can then infer latent dynamics from the static scene to predict plausible future states. Our experiments show that this combination of intelligent abstraction and adaptive simulation results in a versatile world model capable of producing high quality simulations across a wide range of dynamic scenarios.
- Abstract(参考訳): 世界モデリングにおける主要なアプローチである生成ビデオモデルは、基本的な制限に直面している。
それらはしばしば物理的および論理的な規則に違反し、相互作用性に欠け、構造化されたクエリ可能な世界を構築するのに不適当なブラックボックスとして機能する。
これらの課題を克服するため,シミュレーションに最適化された抽出可能な抽象表現に画像キャプションペアを蒸留することに焦点を当てた新しいパラダイムを提案する。
VDAWorldは、視覚言語モデル(VLM)がインテリジェントエージェントとして機能し、このプロセスを編成するフレームワークである。
VLMは、一連の視覚ツールから選択して、接地された(2Dまたは3D)シーン表現を自律的に構築し、それに対応するための互換物理シミュレータ(例えば、剛体、流体)を選択する。
VDAWorldは静的なシーンから潜伏するダイナミクスを推論して、妥当な将来の状態を予測できる。
実験の結果,このインテリジェントな抽象化と適応型シミュレーションを組み合わせることで,多様な動的シナリオにまたがる高品質なシミュレーションを実現できる多種多様な世界モデルが得られることがわかった。
関連論文リスト
- SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation [41.993197533574126]
Inferixは、最適化された半自己回帰復号プロセスを通じて没入型世界合成を可能にする推論エンジンである。
Inferixはさらに、インタラクティブなビデオストリーミングとプロファイリングによる提供を強化し、リアルタイムのインタラクションと現実的なシミュレーションを可能にしている。
論文 参考訳(メタデータ) (2025-11-25T01:45:04Z) - PAN: A World Model for General, Interactable, and Long-Horizon World Simulation [49.805071498152536]
PANは、汎用的で対話性があり、長い水平世界モデルである。
歴史と自然言語のアクションを前提とした高品質なビデオシミュレーションにより、将来の世界の状態を予測します。
実験により, PANは行動条件付き世界シミュレーション, 長期予測, シミュレーション推論において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-12T07:20:35Z) - Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。