Fugu-MT 論文翻訳(概要): MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

論文の概要: MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

arxiv url: http://arxiv.org/abs/2603.18892v1
Date: Thu, 19 Mar 2026 13:33:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.167867
Title: MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model
Title（参考訳）: MultihopSpatial:Multi-hop compositional spatial Reasoning Benchmark for Vision-Language Model (特集:情報ネットワーク)
Authors: Youngwan Lee, Soojin Jang, Yoorhim Cho, Seunghwan Lee, Yong-Ju Lee, Sung Ju Hwang,
Abstract要約: マルチホップおよび合成空間推論のためのベンチマークであるMultihopSpatialを紹介する。補足的計量であるAcc@50IoUは、答えの選択と正確な有界ボックス予測の両方を必要とすることによって、推論と視覚的接地を評価する。大規模なトレーニングコーパスであるMultihopSpatial-Trainは、空間知性を育成している。
参考スコア（独自算出の注目度）: 51.107890058344644
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Spatial reasoning is foundational for Vision-Language Models (VLMs), particularly when deployed as Vision-Language-Action (VLA) agents in physical environments. However, existing benchmarks predominantly focus on elementary, single-hop relations, neglecting the multi-hop compositional reasoning and precise visual grounding essential for real-world scenarios. To address this, we introduce MultihopSpatial, offering three key contributions: (1) A comprehensive benchmark designed for multi-hop and compositional spatial reasoning, featuring 1- to 3-hop complex queries across diverse spatial perspectives. (2) Acc@50IoU, a complementary metric that simultaneously evaluates reasoning and visual grounding by requiring both answer selection and precise bounding box prediction - capabilities vital for robust VLA deployment. (3) MultihopSpatial-Train, a dedicated large-scale training corpus to foster spatial intelligence. Extensive evaluation of 37 state-of-the-art VLMs yields eight key insights, revealing that compositional spatial reasoning remains a formidable challenge. Finally, we demonstrate that reinforcement learning post-training on our corpus enhances both intrinsic VLM spatial reasoning and downstream embodied manipulation performance.
Abstract（参考訳）: 空間的推論は視覚言語モデル(VLM)の基礎であり、特に物理的な環境で視覚言語モデル(VLA)エージェントとして展開する場合に基礎となる。しかし、既存のベンチマークは主に基本的なシングルホップ関係に焦点をあて、マルチホップ構成推論を無視し、現実のシナリオに不可欠な正確な視覚的基盤を無視する。 1) マルチホップおよび構成空間推論のために設計された総合的なベンチマークで, 多様な空間的視点をまたいだ1～3ホップの複雑なクエリを特徴付ける。 2) Acc@50IoUは、答えの選択と正確なバウンディングボックス予測の両方を必要とすることによって、推論と視覚的グラウンドを同時に評価する補完的なメトリックである。 (3)MultihopSpatial-Trainは、空間知性を育むための大規模トレーニングコーパスである。 37個の最先端VLMの広範囲な評価は8つの重要な洞察を与え、構成空間推論が依然として重大な課題であることを示した。最後に,我々のコーパスにおける強化学習は,内在的VLM空間推論と下流実施操作性能を両立させることを示した。

論文の概要: MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

関連論文リスト