論文の概要: Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding
- arxiv url: http://arxiv.org/abs/2509.25794v1
- Date: Tue, 30 Sep 2025 05:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.436923
- Title: Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding
- Title(参考訳): ポイントイットアウト:マルチステージビジュアルグラウンドにおける視覚言語モデルのベンチマークエンボディード推論
- Authors: Haotian Xue, Yunhao Ge, Yu Zeng, Zhaoshuo Li, Ming-Yu Liu, Yongxin Chen, Jiaojiao Fan,
- Abstract要約: VLM(Vision-Language Models)は、様々なタスクにまたがる優れた世界的知識を実証した。
既存のベンチマークでは、画像アノテーションに基づいた複数選択質問を通じて、VLMの具体的推論能力を評価している。
我々は,VLMの具体的推論能力を正確な視覚的接地により体系的に評価する新しいベンチマークであるPoint-It-Outベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 39.64540328712615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated impressive world knowledge across a wide range of tasks, making them promising candidates for embodied reasoning applications. However, existing benchmarks primarily evaluate the embodied reasoning ability of VLMs through multiple-choice questions based on image annotations -- for example, selecting which trajectory better describes an event in the image. In this work, we introduce the Point-It-Out (PIO) benchmark, a novel benchmark designed to systematically assess the embodied reasoning abilities of VLMs through precise visual grounding. We propose a hierarchical evaluation protocol spanning three stages (S1: referred-object localization, S2: task-driven pointing, and S3: visual trace prediction), with data collected from critical domains for embodied intelligence, including indoor, kitchen, driving, and robotic manipulation scenarios. Extensive experiments with over ten state-of-the-art VLMs reveal several interesting findings. For example, strong general-purpose models such as GPT-4o, while excelling on many benchmarks (e.g., language, perception, and reasoning), underperform compared to some open-source models in precise visual grounding; models such as MoLMO perform well in S1 and S2 but struggle in S3, where requires grounding combined with visual trace planning.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なタスクにまたがる優れた世界的知識を実証し、それらを具現化した推論アプリケーション候補として期待できる。
しかしながら、既存のベンチマークでは、画像アノテーションに基づいた複数選択の質問を通じて、VLMの具体的推論能力を主に評価している。
本稿では,VLMの具体的推論能力を正確に視覚的に評価する新しいベンチマークであるPoint-It-Out(PIO)ベンチマークを紹介する。
本稿では,3段階にわたる階層的評価プロトコルを提案する(S1:参照オブジェクトのローカライゼーション,S2:タスク駆動ポインティング,S3:視覚的トレース予測)。
10以上の最先端のVLMを用いた大規模な実験では、いくつかの興味深い発見が示されている。
例えば、GPT-4oのような強力な汎用モデルは、多くのベンチマーク(例えば、言語、知覚、推論)で優れているが、正確なビジュアルグラウンドではいくつかのオープンソースモデルに比べて性能が劣る。
関連論文リスト
- VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - PointArena: Probing Multimodal Grounding Through Language-Guided Pointing [79.80132157576978]
ポインティングは、視覚的コンテキスト内で言語を接地するための基本的で直感的なメカニズムとして機能する。
多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
論文 参考訳(メタデータ) (2025-05-15T06:04:42Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。