論文の概要: Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
- arxiv url: http://arxiv.org/abs/2509.06266v1
- Date: Mon, 08 Sep 2025 01:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.928835
- Title: Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
- Title(参考訳): Ego-Centric Multi-View シーンにおける視覚言語モデルによる空間推論
- Authors: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari,
- Abstract要約: 3次元空間関係の理解は、現在の視覚・言語モデル(VLM)の大きな限界である。
我々は、エゴ中心のマルチビュー屋外データを用いて、VLMの空間的推論能力を評価するために設計された新しいベンチマークであるEgo3D-Benchを紹介する。
VLMの3次元空間的推論を強化する後学習フレームワークであるEgo3D-VLMを提案する。
- 参考スコア(独自算出の注目度): 12.556887649476721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding 3D spatial relationships remains a major limitation of current Vision-Language Models (VLMs). Prior work has addressed this issue by creating spatial question-answering (QA) datasets based on single images or indoor videos. However, real-world embodied AI agents such as robots and self-driving cars typically rely on ego-centric, multi-view observations. To this end, we introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial reasoning abilities of VLMs using ego-centric, multi-view outdoor data. Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement from human annotators to ensure quality and diversity. We benchmark 16 SOTA VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results reveal a notable performance gap between human level scores and VLM performance, highlighting that current VLMs still fall short of human level spatial understanding. To bridge this gap, we propose Ego3D-VLM, a post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM generates cognitive map based on estimated global 3D coordinates, resulting in 12% average improvement on multi-choice QA and 56% average improvement on absolute distance estimation. Ego3D-VLM is modular and can be integrated with any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for advancing toward human level spatial understanding in real-world, multi-view environments.
- Abstract(参考訳): 3次元空間関係を理解することは、現在のビジョン・ランゲージ・モデル(VLM)の大きな限界である。
これまでの研究は、単一の画像や屋内ビデオに基づいて、空間質問回答(QA)データセットを作成することでこの問題に対処してきた。
しかし、ロボットや自動運転車のような現実世界の具体化されたAIエージェントは通常、エゴ中心の多視点観察に依存している。
この目的のために、エゴ中心のマルチビュー屋外データを用いて、VLMの空間的推論能力を評価するために設計された新しいベンチマークであるEgo3D-Benchを紹介する。
Ego3D-Benchは8,600以上のQAペアから構成されており、品質と多様性を確保するために人間のアノテータから多大な関与を伴って作成されている。
我々は、GPT-4o、Gemini1.5-Pro、InternVL3、Qwen2.5-VLを含む16のSOTA VLMをベンチマークした。
以上の結果から,人間レベルスコアとVLM性能の差は顕著であり,現在のVLMは人間レベルの空間的理解に欠けていることが明らかとなった。
このギャップを埋めるために,VLMの3次元空間推論を強化する後学習フレームワークであるEgo3D-VLMを提案する。
Ego3D-VLMは、推定されたグローバルな3D座標に基づいて認知マップを生成し、結果として、マルチチョイスQAの平均改善が12%、絶対距離推定の平均改善が56%となる。
Ego3D-VLMはモジュール化されており、既存のVLMと統合可能である。
Ego3D-BenchとEgo3D-VLMは、現実世界のマルチビュー環境において、人間レベルの空間的理解を進めるための貴重なツールを提供する。
関連論文リスト
- MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [82.46482433335535]
3次元空間における空間的推論は、人間の認知の中心であり、ナビゲーションや操作などの具体的タスクには不可欠である。
私たちはMindJourneyを提案します。これはテスト時のスケーリングフレームワークで、この不足した機能を備えたビジョン言語モデルを提供します。
我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均8%以上の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2025-07-16T17:59:36Z) - EgoVLM: Policy Optimization for Egocentric Video Understanding [2.397572703240721]
本稿では,視覚的理解と空間的時間的推論を統合した視覚言語モデルであるEgoVLMを紹介する。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
我々のEgoVLMBは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、Egoベンチマークで13.87精度で上回っている。
論文 参考訳(メタデータ) (2025-06-03T17:28:00Z) - Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames [17.975173937253494]
エゴセントリックなビデオを操作するAIアシスタントは、時間をかけて空間的な手がかりを統合する必要がある。
Disjoint-3DQAは、VLMのこの能力を評価するためのQAベンチマークである。
論文 参考訳(メタデータ) (2025-05-30T06:32:26Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs for Video QA [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
Ego4Dでは,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを自動生成する。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。
本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:14:14Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。