論文の概要: A Mechanistic View on Video Generation as World Models: State and Dynamics
- arxiv url: http://arxiv.org/abs/2601.17067v1
- Date: Thu, 22 Jan 2026 19:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.115914
- Title: A Mechanistic View on Video Generation as World Models: State and Dynamics
- Title(参考訳): 世界モデルとしての映像生成に関する力学的考察:状態とダイナミクス
- Authors: Luozhou Wang, Zhifei Chen, Yihua Du, Dongyu Yan, Wenhang Ge, Guibao Shen, Xinli Xu, Leyi Wu, Man Chen, Tianshuo Xu, Peiran Ren, Xin Tao, Pengfei Wan, Ying-Cong Chen,
- Abstract要約: 本研究は、状態構築とダイナミクスモデリングという2つの柱を中心とした新しい分類法を提案する。
これらの課題に対処することで、視野は視覚的に可視なビデオから、堅牢で汎用的な世界シミュレータの構築へと進化することができる。
- 参考スコア(独自算出の注目度): 43.951972667861575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video generation models have demonstrated emergent physical coherence, positioning them as potential world models. However, a gap remains between contemporary "stateless" video architectures and classic state-centric world model theories. This work bridges this gap by proposing a novel taxonomy centered on two pillars: State Construction and Dynamics Modeling. We categorize state construction into implicit paradigms (context management) and explicit paradigms (latent compression), while dynamics modeling is analyzed through knowledge integration and architectural reformulation. Furthermore, we advocate for a transition in evaluation from visual fidelity to functional benchmarks, testing physical persistence and causal reasoning. We conclude by identifying two critical frontiers: enhancing persistence via data-driven memory and compressed fidelity, and advancing causality through latent factor decoupling and reasoning-prior integration. By addressing these challenges, the field can evolve from generating visually plausible videos to building robust, general-purpose world simulators.
- Abstract(参考訳): 大規模ビデオ生成モデルは、創発的な物理的コヒーレンスを示し、それらが潜在的な世界モデルとして位置づけられている。
しかし、現代の「ステートレス」ビデオアーキテクチャと古典的なステート中心の世界モデル理論の間にはギャップが残っている。
この研究は、国家建設とダイナミクスモデリングという2つの柱を中心とした新しい分類法を提案し、このギャップを埋める。
我々は、状態構築を暗黙のパラダイム(コンテキスト管理)と明示的なパラダイム(遅延圧縮)に分類し、動的モデリングは知識統合とアーキテクチャ改革を通じて分析する。
さらに、視覚的忠実度から機能的ベンチマークへの移行、物理的持続性テスト、因果推論を提唱する。
データ駆動型メモリによる永続性の向上と圧縮された忠実度,潜在因子の分離と推論と適切な統合による因果性の向上という,2つの重要なフロンティアを特定した。
これらの課題に対処することで、視野は視覚的に可視なビデオから、堅牢で汎用的な世界シミュレータの構築へと進化することができる。
関連論文リスト
- Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Dyn-O: Building Structured World Models with Object-Centric Representations [42.65409148846005]
オブジェクト中心の表現に基づいて構築された拡張構造化世界モデルであるDyn-Oを紹介する。
オブジェクト中心表現における以前の研究と比較すると、Dyn-Oは学習表現とモデリングダイナミクスの両方において改善されている。
提案手法は,画素観測からオブジェクト中心の世界モデルを直接学習し,DreamerV3のロールアウト予測精度を向上する。
論文 参考訳(メタデータ) (2025-07-04T05:06:15Z) - Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities [22.476740954286836]
今後の研究を導くための総合的な調査を行う。
既存の統一モデルについてレビューし、これらを3つの主要なアーキテクチャパラダイムに分類する。
トークン化戦略,クロスモーダルアテンション,データなど,この新興分野に直面する重要な課題について論じる。
論文 参考訳(メタデータ) (2025-05-05T11:18:03Z) - Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
本フレームワークは,動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。