論文の概要: Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames
- arxiv url: http://arxiv.org/abs/2505.24257v1
- Date: Fri, 30 May 2025 06:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.803045
- Title: Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames
- Title(参考訳): 視点外, 文脈外? 異方性フレーム間のVLMにおける自我中心空間推論
- Authors: Sahithya Ravi, Gabriel Sarch, Vibhav Vineet, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel,
- Abstract要約: エゴセントリックなビデオを操作するAIアシスタントは、時間をかけて空間的な手がかりを統合する必要がある。
Disjoint-3DQAは、VLMのこの能力を評価するためのQAベンチマークである。
- 参考スコア(独自算出の注目度): 17.975173937253494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An embodied AI assistant operating on egocentric video must integrate spatial cues across time - for instance, determining where an object A, glimpsed a few moments ago lies relative to an object B encountered later. We introduce Disjoint-3DQA , a generative QA benchmark that evaluates this ability of VLMs by posing questions about object pairs that are not co-visible in the same frame. We evaluated seven state-of-the-art VLMs and found that models lag behind human performance by 28%, with steeper declines in accuracy (60% to 30 %) as the temporal gap widens. Our analysis further reveals that providing trajectories or bird's-eye-view projections to VLMs results in only marginal improvements, whereas providing oracle 3D coordinates leads to a substantial 20% performance increase. This highlights a core bottleneck of multi-frame VLMs in constructing and maintaining 3D scene representations over time from visual signals. Disjoint-3DQA therefore sets a clear, measurable challenge for long-horizon spatial reasoning and aims to catalyze future research at the intersection of vision, language, and embodied AI.
- Abstract(参考訳): 例えば、わずか数秒前に見たオブジェクトAが、後で遭遇したオブジェクトBと相対的な位置にあるかどうかを判断する。
本稿では,同一フレームで同一視できないオブジェクトペアに関する質問をすることで,VLMのこの能力を評価するための生成QAベンチマークであるDisjoint-3DQAを紹介する。
その結果, 時間的ギャップが大きくなるにつれて, 精度が60%から30%の急激な低下がみられた。
さらに,VLMに軌跡や鳥眼視投影を提供することで限界改善が得られ,一方,オラクル3D座標では性能が20%向上することが示唆された。
このことは、視覚信号から時間をかけて3Dシーン表現を構築し維持する上で、マルチフレームVLMのコアボトルネックを強調している。
Disjoint-3DQAは、長距離空間推論のための明確で測定可能な課題を設定し、視覚、言語、具体化されたAIの交差点で将来の研究を触媒することを目指している。
関連論文リスト
- VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models [63.12671761097701]
視覚言語モデル(Ms)は、移動距離や移動物体の速度などの要素を分析するのに苦労する。
我々はSTKitとST-Benchと呼ばれるベンチマークデータセットを構築した。
本稿では,ST-VLMが多様な領域やタスクにまたがって頑健に一般化されていることを示す。
論文 参考訳(メタデータ) (2025-03-25T05:08:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。
エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:59Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。