論文の概要: VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.11438v1
- Date: Fri, 14 Nov 2025 16:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.70961
- Title: VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models
- Title(参考訳): VP-Bench: マルチモーダル大規模言語モデルにおけるビジュアルプロンプトの総合ベンチマーク
- Authors: Mingjie Xu, Jinpeng Chen, Yuzhi Zhao, Jason Chun Lok Li, Yue Qiu, Zekang Du, Mengyang Wu, Pingping Zhang, Kun Li, Hongzheng Yang, Wenao Ma, Jiaheng Wei, Qinbin Li, Kangcheng Liu, Wenqiang Lei,
- Abstract要約: 本稿では,視覚的プロンプトと利用におけるMLLMの能力を評価するベンチマークであるVP-Benchを紹介する。
VP-Bench氏は2段階評価フレームワークを使用している。 ステージ1は8つの形状と355の組み合わせにまたがる30k属性プロンプトを使用して、自然のシーンでVPを知覚するモデルの能力を調べる。
ステージ2では、VPが下流タスクに与える影響を調査し、現実の問題解決シナリオにおけるその効果を測定します。
- 参考スコア(独自算出の注目度): 62.486978131415924
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) have enabled a wide range of advanced vision-language applications, including fine-grained object recognition and contextual understanding. When querying specific regions or objects in an image, human users naturally use "visual prompts" (VPs), such as bounding boxes, to provide reference. However, no existing benchmark systematically evaluates the ability of MLLMs to interpret such VPs. This gap leaves it unclear whether current MLLMs can effectively recognize VPs, an intuitive prompting method for humans, and use them to solve problems. To address this limitation, we introduce VP-Bench, a benchmark for assessing MLLMs' capability in VP perception and utilization. VP-Bench employs a two-stage evaluation framework: Stage 1 examines models' ability to perceive VPs in natural scenes, using 30k visualized prompts spanning eight shapes and 355 attribute combinations. Stage 2 investigates the impact of VPs on downstream tasks, measuring their effectiveness in real-world problem-solving scenarios. Using VP-Bench, we evaluate 28 MLLMs, including proprietary systems (e.g., GPT-4o) and open-source models (e.g., InternVL3 and Qwen2.5-VL), and provide a comprehensive analysis of factors that affect VP understanding, such as variations in VP attributes, question arrangement, and model scale. VP-Bench establishes a new reference framework for studying how MLLMs comprehend and resolve grounded referring questions.
- Abstract(参考訳): MLLM(Multimodal large language model)は、細粒度オブジェクト認識や文脈理解など、幅広い高度な視覚言語アプリケーションを実現する。
画像内の特定の領域やオブジェクトを問い合わせる際、ヒューマンユーザーは自然にバウンディングボックスのような「視覚的プロンプト(VP)」を使って参照を提供する。
しかし、MLLMがそのようなVPを解釈する能力を体系的に評価するベンチマークは存在しない。
このギャップは、現在のMLLMが、人間の直感的なプロンプト方法であるVPを効果的に認識し、問題を解くためにそれらを使うかどうかをはっきりさせていない。
この制限に対処するために、我々は、VP知覚と利用におけるMLLMの能力を評価するベンチマークであるVP-Benchを紹介する。
VP-Bench氏は2段階評価フレームワークを使用している。 ステージ1は8つの形状と355の属性の組み合わせにまたがる30kのプロンプトを使用して、自然のシーンでVPを知覚するモデルの能力を調べる。
ステージ2では、VPが下流タスクに与える影響を調査し、現実の問題解決シナリオにおけるその効果を測定します。
VP-Benchを用いて、プロプライエタリなシステム(例えば、GPT-4o)やオープンソースモデル(例えば、InternVL3やQwen2.5-VL)を含む28のMLLMを評価し、VP属性の変動、質問配列、モデルスケールなどのVP理解に影響を与える要因を包括的に分析する。
VP-Bench氏はMLLMの理解と解決方法を研究するための新しい参照フレームワークを構築している。
関連論文リスト
- How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding [39.342366994703376]
MLLMが階層間の視覚的およびテキスト的入力をどのように処理するかを分析するための探索フレームワークを導入する。
ステージ単位の構造は、視覚的トークン化、命令チューニングデータ、事前学習コーパスの様々なバリエーションで安定しているが、各ステージシフトごとに特定の層が割り当てられることが示される。
論文 参考訳(メタデータ) (2025-08-27T21:22:01Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
大規模視覚言語モデル(VLM)のアライメント能力を評価するベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオとインターネットソースから慎重にキュレートされ、シングルターンとマルチターンの対話シナリオを含む。
また,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを開発した。
論文 参考訳(メタデータ) (2024-06-13T16:30:14Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。