論文の概要: Visually Prompted Benchmarks Are Surprisingly Fragile
- arxiv url: http://arxiv.org/abs/2512.17875v1
- Date: Fri, 19 Dec 2025 18:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.527559
- Title: Visually Prompted Benchmarks Are Surprisingly Fragile
- Title(参考訳): 目に見えるベンチマークは意外と壊れている
- Authors: Haiwen Feng, Long Lian, Lisa Dunlap, Jiahao Shu, XuDong Wang, Renhao Wang, Trevor Darrell, Alane Suhr, Angjoo Kanazawa,
- Abstract要約: VLMを評価する上で重要な課題は、視覚コンテンツをテキストから独立して分析する能力をテストすることである。
ビジュアルマーカーの設計やデータセットサイズなど,ベンチマーク設定の詳細が,モデルパフォーマンスやリーダボードのランキングに大きく影響していることを実証する。
この不安定性を軽減するため、既存のデータセットをキュレートして16のビジュアルマーカーのバリエーションを備えた、より大きな視覚的にトリガーされたベンチマークであるVPBenchを作成します。
- 参考スコア(独自算出の注目度): 82.98001690512461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in evaluating VLMs is testing models' ability to analyze visual content independently from their textual priors. Recent benchmarks such as BLINK probe visual perception through visual prompting, where questions about visual content are paired with coordinates to which the question refers, with the coordinates explicitly marked in the image itself. While these benchmarks are an important part of VLM evaluation, we find that existing models are surprisingly fragile to seemingly irrelevant details of visual prompting: simply changing a visual marker from red to blue can completely change rankings among models on a leaderboard. By evaluating nine commonly-used open- and closed-source VLMs on two visually prompted tasks, we demonstrate how details in benchmark setup, including visual marker design and dataset size, have a significant influence on model performance and leaderboard rankings. These effects can even be exploited to lift weaker models above stronger ones; for instance, slightly increasing the size of the visual marker results in open-source InternVL3-8B ranking alongside or better than much larger proprietary models like Gemini 2.5 Pro. We further show that low-level inference choices that are often ignored in benchmarking, such as JPEG compression levels in API calls, can also cause model lineup changes. These details have substantially larger impacts on visually prompted benchmarks than on conventional semantic VLM evaluations. To mitigate this instability, we curate existing datasets to create VPBench, a larger visually prompted benchmark with 16 visual marker variants. VPBench and additional analysis tools are released at https://lisadunlap.github.io/vpbench/.
- Abstract(参考訳): VLMを評価する上で重要な課題は、モデルがテキスト前のものと独立して視覚コンテンツを分析できる能力をテストすることである。
BLINKのような最近のベンチマークでは、視覚的プロンプトを通じて視覚的知覚を探索し、視覚的内容に関する質問は、その質問が参照する座標と、画像自体に明示的にマークされた座標とをペアにしている。
これらのベンチマークはVLM評価の重要な部分ですが、既存のモデルは、一見無関係な視覚的プロンプトの細部に対して、驚くほど脆弱であることが分かりました。
ビジュアルマーカーの設計やデータセットサイズなど,ベンチマーク設定の詳細が,モデルのパフォーマンスやリーダボードのランキングにどのように影響するかを示す。
例えば、ビジュアルマーカーのサイズをわずかに大きくすると、オープンソースのInternVL3-8Bランキングは、Gemini 2.5 Proのようなより大型のプロプライエタリモデルと同等かそれ以上になる。
さらに、API呼び出しにおけるJPEG圧縮レベルなどのベンチマークでしばしば無視される低レベルの推論選択は、モデルラインアップの変更を引き起こす可能性があることを示す。
これらの詳細は、従来のセマンティックなVLM評価よりも視覚的に刺激されたベンチマークに大きく影響している。
この不安定性を軽減するため、既存のデータセットをキュレートして16のビジュアルマーカーのバリエーションを備えた、より大きな視覚的にトリガーされたベンチマークであるVPBenchを作成します。
VPBenchとその他の分析ツールがhttps://lisadunlap.github.io/vpbench/.comで公開されている。
関連論文リスト
- Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文 参考訳(メタデータ) (2025-11-06T18:43:21Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset [13.574832958298911]
STORMは、ユニバーサルビジュアルレーティングのためのMLLMの信頼に値する順序回帰能力を刺激するためのデータ収集とベンチマークである。
本稿では,ラベル候補を動的に考慮し,解釈可能な思考を提供する粗大な処理パイプラインを提案する。
本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
論文 参考訳(メタデータ) (2025-06-02T14:48:15Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文 参考訳(メタデータ) (2024-12-30T03:26:53Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。