論文の概要: EPIC-Bench: A Perception-Centric Benchmark for Fine-Grained Embodied Visual Grounding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.17070v1
- Date: Sat, 16 May 2026 16:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.590522
- Title: EPIC-Bench: A Perception-Centric Benchmark for Fine-Grained Embodied Visual Grounding in Vision-Language Models
- Title(参考訳): EPIC-Bench:視覚・言語モデルを用いた細粒型視覚接地のための知覚中心ベンチマーク
- Authors: Haozhe Shan, Xiancong Ren, Han Dong, Haoyuan Shi, Yingji Zhang, Jiayu Hu, Yi Zhang, Yong Dai, Bin Shen, Lizhen Qu, Zenglin Xu, Xiaozhu Ju,
- Abstract要約: EPIC-Benchは、大規模視覚言語モデル(VLM)の基盤ベンチマークである。
実環境におけるVLMの視覚知覚能力を体系的に評価する。
- 参考スコア(独自算出の注目度): 39.77362541405281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large vision-language models (VLMs) are increasingly adopted as the perceptual backbone for embodied agents, existing benchmarks often rely on question-answering or multiple-choice formats. These protocols allow models to exploit linguistic priors rather than demonstrating genuine visual grounding. To address this, we present EPIC-Bench, Embodied PerceptIon BenChmark, a fine-grained grounding benchmark designed to systematically evaluate the visual perceptual capabilities of VLMs in real-world embodied environments. Comprising 6.6k meticulously annotated tuples (Image, Text, Mask), EPIC-Bench spans 23 fine-grained tasks across three core stages of the embodied interaction pipeline: Target Localization, Navigation, and Manipulation. Extensive evaluations of over 89 leading VLMs reveal that while advanced reasoning models show promise, current VLMs universally struggle with complex visual-text alignment for physical interactions. Specifically, models exhibit critical bottlenecks in multi-target counting, part-whole relationship understanding, and affordance region detection. EPIC-Bench provides a robust foundation and actionable insights for advancing the next generation of vision-driven embodied models.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)はエンボディエージェントの知覚バックボーンとしてますます採用されているが、既存のベンチマークは質問応答や複数選択形式に依存していることが多い。
これらのプロトコルにより、モデルは真の視覚的接地を示すのではなく、言語的先行を活用できる。
そこで本研究では,実世界の実環境におけるVLMの視覚知覚能力の体系的評価を目的として,EPIC-Bench, Embodied PerceptIon BenChmarkを提案する。
6.6kの微妙な注釈付きタプル(画像、テキスト、マスク)を含むEPIC-Benchは、エボダイド相互作用パイプラインの3つのコアステージ(ターゲットローカライゼーション、ナビゲーション、操作)の23のきめ細かいタスクにまたがる。
89以上の主要なVLMの広範囲な評価は、高度な推論モデルが将来性を示す一方で、現在のVLMは物理的相互作用のための複雑な視覚的テキストアライメントに普遍的に苦労していることを示している。
具体的には、マルチターゲットカウント、部分的関係理解、アベイランス領域検出において重要なボトルネックを示す。
EPIC-Benchは、次世代の視覚駆動型エンボディモデルを進めるための堅牢な基盤と実用的な洞察を提供する。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding [39.64540328712615]
VLM(Vision-Language Models)は、様々なタスクにまたがる優れた世界的知識を実証した。
既存のベンチマークでは、画像アノテーションに基づいた複数選択質問を通じて、VLMの具体的推論能力を評価している。
我々は,VLMの具体的推論能力を正確な視覚的接地により体系的に評価する新しいベンチマークであるPoint-It-Outベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-09-30T05:05:54Z) - V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models [10.052877942432783]
本稿では,視覚言語モデルの因果的解釈に視覚意味編集と注意調整を組み合わせた新しいフレームワークであるV-SEAMを紹介する。
V-SEAMは3つの意味レベルにわたる予測に肯定的あるいは否定的な貢献で注目の頭を認識する。
3種類のVQAベンチマークでLLaVAとInstructBLIPの性能向上を示した。
論文 参考訳(メタデータ) (2025-09-18T10:58:34Z) - Towards Understanding Visual Grounding in Visual Language Models [2.553589584067239]
ビジュアルグラウンドティング(Visual Grounding)とは、モデルがテキスト記述と一致する視覚入力内の領域を識別する能力である。
現代汎用視覚言語モデル(VLM)研究の重要領域について概観する。
論文 参考訳(メタデータ) (2025-09-12T15:33:49Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。