論文の概要: Can World Models Benefit VLMs for World Dynamics?
- arxiv url: http://arxiv.org/abs/2510.00855v1
- Date: Wed, 01 Oct 2025 13:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.568626
- Title: Can World Models Benefit VLMs for World Dynamics?
- Title(参考訳): 世界モデルとVLMは世界ダイナミクスに相応しいか?
- Authors: Kevin Zhang, Kuangzhi Ge, Xiaowei Chi, Renrui Zhang, Shaojun Shi, Zhen Dong, Sirui Han, Shanghang Zhang,
- Abstract要約: 本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 59.73433292793044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trained on internet-scale video data, generative world models are increasingly recognized as powerful world simulators that can generate consistent and plausible dynamics over structure, motion, and physics. This raises a natural question: with the advent of strong video foundational models, might they supplant conventional vision encoder paradigms for general-purpose multimodal understanding? While recent studies have begun to explore the potential of world models on common vision tasks, these explorations typically lack a systematic investigation of generic, multimodal tasks. In this work, we strive to investigate the capabilities when world model priors are transferred into Vision-Language Models: we re-purpose a video diffusion model as a generative encoder to perform a single denoising step and treat the resulting latents as a set of visual embedding. We empirically investigate this class of models, which we refer to as World-Language Models (WorldLMs), and we find that generative encoders can capture latents useful for downstream understanding that show distinctions from conventional encoders. Naming our best-performing variant Dynamic Vision Aligner (DyVA), we further discover that this method significantly enhances spatial reasoning abilities and enables single-image models to perform multi-frame reasoning. Through the curation of a suite of visual reasoning tasks, we find DyVA to surpass both open-source and proprietary baselines, achieving state-of-the-art or comparable performance. We attribute these gains to WorldLM's inherited motion-consistency internalization from video pre-training. Finally, we systematically explore extensive model designs to highlight promising directions for future work. We hope our study can pave the way for a new family of VLMs that leverage priors from world models and are on a promising path towards generalist vision learners.
- Abstract(参考訳): インターネット規模のビデオデータに基づいてトレーニングされた生成的世界モデルは、構造、運動、物理に関する一貫性のある、もっともらしいダイナミクスを生成できる強力な世界シミュレータとして、ますます認識されている。
強力なビデオ基盤モデルの出現により、彼らは汎用マルチモーダル理解のために従来のビジョンエンコーダパラダイムに取って代わるのだろうか?
近年の研究では、一般的な視覚タスクにおける世界モデルの可能性を探る研究が始まっているが、これらの探索は通常、一般的なマルチモーダルタスクに関する体系的な研究を欠いている。
本研究では,映像拡散モデルを生成エンコーダとして再使用し,単一の認知ステップを実行し,その結果の潜伏者を視覚的埋め込みの集合として扱う。
本研究は,世界言語モデル(World-Language Models, WorldLMs)と呼ばれる,このタイプのモデルを実証的に検討し,生成エンコーダが従来のエンコーダとの区別を示す下流理解に役立つ潜伏者を捕捉できることを見出した。
DyVA(Dynamic Vision Aligner)と命名することで,この手法が空間推論能力を大幅に向上し,マルチフレーム推論を単一画像モデルで実現できることがさらに明らかになった。
視覚的推論タスクのスイートのキュレーションを通じて、DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現していると考えています。
We attribute that these gains of WorldLM's inherited motion-consistency internalization from video pre-training。
最後に,今後の作業に期待できる方向性を明らかにするため,広範囲なモデル設計を体系的に検討する。
我々の研究は、世界モデルから先進的な先進的要素を生かし、一般のビジョン学習者への有望な道のりをたどることができることを願っている。
関連論文リスト
- From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。