論文の概要: MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model
- arxiv url: http://arxiv.org/abs/2603.18892v1
- Date: Thu, 19 Mar 2026 13:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.167867
- Title: MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model
- Title(参考訳): MultihopSpatial:Multi-hop compositional spatial Reasoning Benchmark for Vision-Language Model (特集:情報ネットワーク)
- Authors: Youngwan Lee, Soojin Jang, Yoorhim Cho, Seunghwan Lee, Yong-Ju Lee, Sung Ju Hwang,
- Abstract要約: マルチホップおよび合成空間推論のためのベンチマークであるMultihopSpatialを紹介する。
補足的計量であるAcc@50IoUは、答えの選択と正確な有界ボックス予測の両方を必要とすることによって、推論と視覚的接地を評価する。
大規模なトレーニングコーパスであるMultihopSpatial-Trainは、空間知性を育成している。
- 参考スコア(独自算出の注目度): 51.107890058344644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spatial reasoning is foundational for Vision-Language Models (VLMs), particularly when deployed as Vision-Language-Action (VLA) agents in physical environments. However, existing benchmarks predominantly focus on elementary, single-hop relations, neglecting the multi-hop compositional reasoning and precise visual grounding essential for real-world scenarios. To address this, we introduce MultihopSpatial, offering three key contributions: (1) A comprehensive benchmark designed for multi-hop and compositional spatial reasoning, featuring 1- to 3-hop complex queries across diverse spatial perspectives. (2) Acc@50IoU, a complementary metric that simultaneously evaluates reasoning and visual grounding by requiring both answer selection and precise bounding box prediction - capabilities vital for robust VLA deployment. (3) MultihopSpatial-Train, a dedicated large-scale training corpus to foster spatial intelligence. Extensive evaluation of 37 state-of-the-art VLMs yields eight key insights, revealing that compositional spatial reasoning remains a formidable challenge. Finally, we demonstrate that reinforcement learning post-training on our corpus enhances both intrinsic VLM spatial reasoning and downstream embodied manipulation performance.
- Abstract(参考訳): 空間的推論は視覚言語モデル(VLM)の基礎であり、特に物理的な環境で視覚言語モデル(VLA)エージェントとして展開する場合に基礎となる。
しかし、既存のベンチマークは主に基本的なシングルホップ関係に焦点をあて、マルチホップ構成推論を無視し、現実のシナリオに不可欠な正確な視覚的基盤を無視する。
1) マルチホップおよび構成空間推論のために設計された総合的なベンチマークで, 多様な空間的視点をまたいだ1~3ホップの複雑なクエリを特徴付ける。
2) Acc@50IoUは、答えの選択と正確なバウンディングボックス予測の両方を必要とすることによって、推論と視覚的グラウンドを同時に評価する補完的なメトリックである。
(3)MultihopSpatial-Trainは、空間知性を育むための大規模トレーニングコーパスである。
37個の最先端VLMの広範囲な評価は8つの重要な洞察を与え、構成空間推論が依然として重大な課題であることを示した。
最後に,我々のコーパスにおける強化学習は,内在的VLM空間推論と下流実施操作性能を両立させることを示した。
関連論文リスト
- Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model [33.18304419115947]
SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLM)の空間的理解を強化する最初のトレーニングフリープロンプトフレームワークである。
視覚的多様性の向上と運動再建に注力する。
本手法はトレーニング・GPUフリーであり,1回のフォワードパスしか必要とせず,既存のMLLMSにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-09-19T15:30:26Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。