論文の概要: Bridging the Gap Between Multimodal Foundation Models and World Models
- arxiv url: http://arxiv.org/abs/2510.03727v1
- Date: Sat, 04 Oct 2025 08:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.217517
- Title: Bridging the Gap Between Multimodal Foundation Models and World Models
- Title(参考訳): マルチモーダルファンデーションモデルと世界モデルとのギャップを埋める
- Authors: Xuehai He,
- Abstract要約: マルチモーダル・ファンデーション・モデルとワールド・モデルとのギャップを埋めるために何が必要かを検討する。
本稿では,シーングラフ,マルチモーダルコンディショニング,アライメント戦略を取り入れて生成プロセスのガイドを行う。
我々はこれらの技術を制御可能な4D生成に拡張し、時間と空間を通じてインタラクティブで編集可能、そして変形可能なオブジェクト合成を可能にする。
- 参考スコア(独自算出の注目度): 10.001347956177879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans understand the world through the integration of multiple sensory modalities, enabling them to perceive, reason about, and imagine dynamic physical processes. Inspired by this capability, multimodal foundation models (MFMs) have emerged as powerful tools for multimodal understanding and generation. However, today's MFMs fall short of serving as effective world models. They lack the essential ability such as perform counterfactual reasoning, simulate dynamics, understand the spatiotemporal information, control generated visual outcomes, and perform multifaceted reasoning. We investigates what it takes to bridge the gap between multimodal foundation models and world models. We begin by improving the reasoning capabilities of MFMs through discriminative tasks and equipping MFMs with structured reasoning skills, such as causal inference, counterfactual thinking, and spatiotemporal reasoning, enabling them to go beyond surface correlations and understand deeper relationships within visual and textual data. Next, we explore generative capabilities of multimodal foundation models across both image and video modalities, introducing new frameworks for structured and controllable generation. Our approaches incorporate scene graphs, multimodal conditioning, and multimodal alignment strategies to guide the generation process, ensuring consistency with high-level semantics and fine-grained user intent. We further extend these techniques to controllable 4D generation, enabling interactive, editable, and morphable object synthesis over time and space.
- Abstract(参考訳): 人間は、複数の感覚モダリティを統合することで世界を理解し、動的物理過程を知覚し、推論し、想像することができる。
この能力に触発されたマルチモーダル基礎モデル(MFM)は、マルチモーダル理解と生成のための強力なツールとして登場した。
しかし、今日のMFMは、効果的な世界モデルとして機能しない。
反事実的推論、ダイナミクスのシミュレート、時空間情報の理解、生成した視覚的結果の制御、多面的推論といった本質的な能力は欠如している。
マルチモーダル・ファンデーション・モデルとワールド・モデルとのギャップを埋めるために何が必要かを考察する。
まず、識別的タスクを通じてMDMの推論能力を改善し、因果推論、反現実的思考、時空間推論などの構造化推論スキルを身につけることで、表面的相関を超え、視覚的・テキスト的データ内の深い関係を理解できるようにすることから始める。
次に、画像とビデオの両モードにわたるマルチモーダル基礎モデルの生成機能について検討し、構造化および制御可能な生成のための新しいフレームワークを導入する。
本稿では,シーングラフ,マルチモーダルコンディショニング,マルチモーダルアライメント戦略を取り入れて生成プロセスをガイドし,高レベルなセマンティクスと詳細なユーザ意図との整合性を確保する。
さらに、これらの技術を制御可能な4D生成に拡張し、時間と空間を通じてインタラクティブで編集可能、そして変形可能なオブジェクト合成を可能にする。
関連論文リスト
- A Survey of Generative Categories and Techniques in Multimodal Large Language Models [3.7507324448128876]
MLLM(Multimodal Large Language Models)はテキスト生成を超えて急速に進化してきた。
本調査では,6つの主要な生成モダリティを分類し,基礎技術がクロスモーダル機能を実現する方法について検討する。
論文 参考訳(メタデータ) (2025-05-29T12:29:39Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。