論文の概要: Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.03302v1
- Date: Mon, 30 Mar 2026 05:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.486888
- Title: Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models
- Title(参考訳): 静的ビジョンを超えて:マルチモーダル大言語モデルにおける直観的物理理解のためのシーンダイナミックフィールドアンロック
- Authors: Nanxi Li, Xiang Wang, Yuanjie Chen, Haode Zhang, Hong Li, Yong-Lu Li,
- Abstract要約: 本研究は、物理推論の第一段階、すなわち直感的な物理理解を考察し、連続体物体の力学を理解する上でのかなりの制限を明らかにする。
SDF(Scene Dynamic Field)は,マルチタスクファインチューニングフレームワーク内で物理シミュレータを利用する簡潔な手法である。
SDFは性能を大幅に改善し、流体タスクで最大20.7%のゲインを達成し、未確認の物理領域に強力な一般化を示す。
- 参考スコア(独自算出の注目度): 19.04320007192703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in image and video understanding, their ability to comprehend the physical world has become an increasingly important research focus. Despite their improvements, current MLLMs struggle significantly with high-level physics reasoning. In this work, we investigate the first step of physical reasoning, i.e., intuitive physics understanding, revealing substantial limitations in understanding the dynamics of continuum objects. To isolate and evaluate this specific capability, we introduce two fundamental benchmark tasks: Next Frame Selection (NFS) and Temporal Coherence Verification (TCV). Our experiments demonstrate that even state-of-the-art MLLMs perform poorly on these foundational tasks. To address this limitation, we propose Scene Dynamic Field (SDF), a concise approach that leverages physics simulators within a multi-task fine-tuning framework. SDF substantially improves performance, achieving up to 20.7% gains on fluid tasks while showing strong generalization to unseen physical domains. This work not only highlights a critical gap in current MLLMs but also presents a promising cost-efficient approach for developing more physically grounded MLLMs. Our code and data are available at https://github.com/andylinx/Scene-Dynamic-Field.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は画像やビデオの理解において印象的な能力を示してきたが、物理世界を理解する能力はますます重要になってきている。
これらの改善にもかかわらず、現在のMLLMは高レベルの物理推論にかなり苦労している。
本研究では,物理推論の第一段階,すなわち直感的な物理理解について検討し,連続体物体の力学を理解する上での重大な限界を明らかにする。
本稿では,Next Frame Selection (NFS) と Temporal Coherence Verification (TCV) の2つの基本的なベンチマークタスクを紹介する。
我々の実験は、最先端のMLLMでさえ、これらの基礎的なタスクでは不十分であることを示した。
この制限に対処するために,マルチタスクファインチューニングフレームワーク内の物理シミュレータを利用する簡潔なアプローチであるScene Dynamic Field (SDF)を提案する。
SDFは性能を大幅に改善し、流体タスクで最大20.7%のゲインを達成し、未確認の物理領域に強力な一般化を示す。
この研究は、現在のMLLMにおける重要なギャップを浮き彫りにするだけでなく、より物理的に基盤化されたMLLMを開発するための有望なコスト効率のアプローチも提示する。
私たちのコードとデータはhttps://github.com/andylinx/Scene-Dynamic-Field.comで公開されています。
関連論文リスト
- Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World [49.80040477190479]
人間は物理的4Dの世界に住み、幾何学的構造と意味的内容は時間とともに進化する。
さまざまな実世界および合成ビデオデータセットから構築された大規模ベンチマークであるDyn-Benchを紹介した。
既存のモデルでは,時間的推論と動的オブジェクトグラウンドの両面において,高い性能を同時に維持できないことがわかった。
論文 参考訳(メタデータ) (2026-03-13T07:42:16Z) - SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models [45.450035386882824]
視覚言語モデル(VLM)は、標準的なビデオタスクではうまく機能するが、運動力学や空間的相互作用を含む物理駆動推論に苦慮する。
本稿では,物理世界のコンテキストキューをVLMの知覚,理解,推論に合わせた解釈可能な表現に変換することによって,このギャップに対処するアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-23T09:43:44Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Uncovering Emergent Physics Representations Learned In-Context by Large Language Models [1.8749305679160366]
大規模言語モデル(LLM)は、テキストプロンプトだけで幅広いタスクを解くことができる、印象的なインコンテキスト学習(ICL)能力を示す。
本稿では LLM の ICL 能力について考察する。
物理系における動的予測タスクをプロキシとして使用し、LLMが文脈で物理を学習できるかどうかを評価する。
論文 参考訳(メタデータ) (2025-08-17T17:49:17Z) - Pixels to Principles: Probing Intuitive Physics Understanding in Multimodal Language Models [5.134872455507186]
本稿では,直感的な物理課題に対するMLLM(State-of-the-the-art multimodal large language model)の体系的評価について述べる。
オープンソースモデルであるInternVL 2.5、Qwen 2.5 VL、LLaVA-OneVision、およびプロプライエタリなGemini 2.0 Flash Thinkingを評価した。
最新のモデルでさえ、不確実なシナリオと物理的に妥当な区別を確実にするのに苦労している。
論文 参考訳(メタデータ) (2025-07-22T13:24:42Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [11.282655911647483]
視覚言語モデル(VLM)における物理推論の課題
物理コンテキストビルダー(PCB)は,物理シーンの詳細な記述を生成するために,より小型のVLMを微調整したモジュラーフレームワークである。
PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。