論文の概要: Multimodal Language Models Cannot Spot Spatial Inconsistencies
- arxiv url: http://arxiv.org/abs/2604.00799v2
- Date: Thu, 02 Apr 2026 21:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 12:42:34.178216
- Title: Multimodal Language Models Cannot Spot Spatial Inconsistencies
- Title(参考訳): マルチモーダル言語モデルでは空間的不整合が見つからない
- Authors: Om Khangaonkar, Hadi J. Rad, Hamed Pirsiavash,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、複数のビューにまたがる3次元幾何学の推論に苦慮することが多い。
我々は,同じシーンを2つの視点で見れば,3次元運動の一貫性に反する物体を識別する,より困難なタスクを導入する。
マルチビューシーンから現実的で空間的に一貫性のない画像ペアを生成するための,シンプルでスケーラブルな手法を提案する。
- 参考スコア(独自算出の注目度): 10.81222944820803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial consistency is a fundamental property of the visual world and a key requirement for models that aim to understand physical reality. Despite recent advances, multimodal large language models (MLLMs) often struggle to reason about 3D geometry across multiple views. Rather than asking models to describe scene attributes, we introduce a more challenging task: given two views of the same scene, identify the object that violates 3D motion consistency. We propose a simple and scalable method for generating realistic, spatially inconsistent image pairs from multi-view scenes, enabling systematic evaluation of this capability. Our results show that state-of-the-art MLLMs significantly underperform human observers and exhibit substantial variability across different scene attributes, revealing a fragile and incomplete understanding of 3D structure. We hope our findings underscore the need for approaches that develop a more deeply grounded understanding of the physical world.
- Abstract(参考訳): 空間的一貫性は視覚世界の基本的な性質であり、物理的な現実を理解することを目的としたモデルにとって重要な要件である。
近年の進歩にもかかわらず、マルチモーダルな大言語モデル(MLLM)は、複数の視点で3次元幾何学について考えるのに苦労することが多い。
モデルにシーン属性を記述するのではなく、同じシーンの2つのビューを考慮し、3Dモーションの一貫性に反するオブジェクトを特定するという、より困難なタスクを導入する。
マルチビューシーンから現実的で空間的に一貫性のない画像ペアを生成するための,シンプルでスケーラブルな手法を提案する。
以上の結果から,現状のMLLMは人間の観察能力が著しく低下し,様々なシーン特性に有意な変動がみられ,脆弱で不完全な3次元構造の理解が得られた。
われわれの発見は、物理的な世界をより深く理解するアプローチの必要性を浮き彫りにすることを願っている。
関連論文リスト
- Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文 参考訳(メタデータ) (2025-06-25T16:40:17Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。