論文の概要: AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2506.09082v1
- Date: Tue, 10 Jun 2025 05:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.661473
- Title: AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
- Title(参考訳): AVA-Bench: ビジョンファウンデーションモデルのためのアトミックビジュアル能力ベンチマーク
- Authors: Zheda Mai, Arpita Chowdhury, Zihe Wang, Sooyoung Jeon, Lemeng Wang, Jiacheng Hou, Jihyung Kil, Wei-Lun Chao,
- Abstract要約: AVA-Benchは、14のAtomic Visual Abilities(AVA)を明示的にアンタングルする最初のベンチマークである。
AVAを分離し、それぞれのトレーニングとテスト分布を一致させることで、VA-Bench は VFM が引き寄せる位置を正確に特定する。
- 参考スコア(独自算出の注目度): 23.60260190463835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of vision foundation models (VFMs) calls for systematic evaluation. A common approach pairs VFMs with large language models (LLMs) as general-purpose heads, followed by evaluation on broad Visual Question Answering (VQA) benchmarks. However, this protocol has two key blind spots: (i) the instruction tuning data may not align with VQA test distributions, meaning a wrong prediction can stem from such data mismatch rather than a VFM' visual shortcomings; (ii) VQA benchmarks often require multiple visual abilities, making it hard to tell whether errors stem from lacking all required abilities or just a single critical one. To address these gaps, we introduce AVA-Bench, the first benchmark that explicitly disentangles 14 Atomic Visual Abilities (AVAs) -- foundational skills like localization, depth estimation, and spatial understanding that collectively support complex visual reasoning tasks. By decoupling AVAs and matching training and test distributions within each, AVA-Bench pinpoints exactly where a VFM excels or falters. Applying AVA-Bench to leading VFMs thus reveals distinctive "ability fingerprints," turning VFM selection from educated guesswork into principled engineering. Notably, we find that a 0.5B LLM yields similar VFM rankings as a 7B LLM while cutting GPU hours by 8x, enabling more efficient evaluation. By offering a comprehensive and transparent benchmark, we hope AVA-Bench lays the foundation for the next generation of VFMs.
- Abstract(参考訳): ビジョンファウンデーションモデル(VFM)の台頭は、体系的な評価を要求する。
一般的なアプローチでは、VFMと大きな言語モデル(LLM)を汎用ヘッドとして組み合わせ、VQA(Visual Question Answering)ベンチマークで評価する。
しかし、このプロトコルには2つの重要な盲点がある。
i) 命令チューニングデータは,VQAテスト分布と一致しない場合があるため,誤予測は,VFMの視覚的欠点ではなく,そのようなデータミスマッチに起因する可能性がある。
(ii)VQAベンチマークは、しばしば複数の視覚能力を必要とするため、エラーが要求されるすべての能力の欠如から生じるものなのか、単に重要なものなのかを判断するのは困難である。
AVA-Benchは、14のアトミック・ビジュアル・アビリティ(AVA) -- ローカライゼーション、深さ推定、複雑な視覚的推論タスクを集合的にサポートする空間的理解といった基本的なスキルを明確に解体する最初のベンチマークである。
AVAを分離し、それぞれのトレーニングとテスト分布を一致させることで、VA-Bench は VFM が引き寄せる位置を正確に特定する。
AVA-Bench を主要な VFM に適用すると、独特な "能力指紋" が示され、VFM の選択を教育された推理学から原理化された工学に転換する。
特に、0.5B LLMは、GPU時間を8倍にカットしながら、7B LLMと同様のVFMランキングを得ることができ、より効率的な評価が可能となる。
包括的で透明なベンチマークを提供することで、AVA-Benchが次世代のVFMの基礎を築いたいと考えています。
関連論文リスト
- Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation [24.531539125814877]
Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-04T11:59:26Z) - PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。
提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。
私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文 参考訳(メタデータ) (2025-02-21T04:53:11Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z) - How to Benchmark Vision Foundation Models for Semantic Segmentation? [1.8570591025615457]
本稿では,視覚基盤モデル(VFM)をセマンティックセグメンテーションのためにベンチマークする方法について検討する。
様々なVFMを様々な設定で微調整し、個々の設定がパフォーマンスランキングとトレーニング時間に与える影響を評価する。
データセットとドメインシフト間でのパフォーマンスランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されている。
論文 参考訳(メタデータ) (2024-04-18T13:27:29Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。