論文の概要: Benchmarking Zero-Shot Recognition with Vision-Language Models:
Challenges on Granularity and Specificity
- arxiv url: http://arxiv.org/abs/2306.16048v2
- Date: Mon, 29 Jan 2024 10:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:32:25.964960
- Title: Benchmarking Zero-Shot Recognition with Vision-Language Models:
Challenges on Granularity and Specificity
- Title(参考訳): 視覚言語モデルによるゼロショット認識のベンチマーク:粒度と特異性への挑戦
- Authors: Zhenlin Xu, Yi Zhu, Tiffany Deng, Abhay Mittal, Yanbei Chen, Manchen
Wang, Paolo Favaro, Joseph Tighe, Davide Modolo
- Abstract要約: 本稿では、実世界のゼロショット認識タスクにおいて、視覚言語モデル(VLM)を評価するための革新的なベンチマークを紹介する。
本研究では,画像ネットとMS-COCOデータセットを用いて,概念の粒度レベルでの認識におけるモデルの一貫性を評価する。
- 参考スコア(独自算出の注目度): 47.59279298300943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces innovative benchmarks to evaluate Vision-Language
Models (VLMs) in real-world zero-shot recognition tasks, focusing on the
granularity and specificity of prompting text. We propose a unique evaluation
protocol using adapted ImageNet and MS-COCO datasets to assess models'
consistency in recognizing concepts at varying granularity levels and their
sensitivity to the specificity of language inputs. Our extensive evaluation
reveals that state-of-the-art VLMs, including contrastive models like CLIP,
struggle with granularity and are sensitive to text specificity, impacting
their effectiveness in open-world settings. This comprehensive study, a first
in evaluating VLMs from these perspectives, provides valuable insights and
tools for the community, highlighting the limitations and paving the way for
enhanced models with better generalization in zero-shot recognition.
- Abstract(参考訳): 本稿では,実世界のゼロショット認識タスクにおける視覚言語モデル(vlms)を評価するための革新的なベンチマークを紹介する。
適応されたImageNetとMS-COCOデータセットを用いて,概念の粒度レベルでの認識におけるモデルの一貫性と,言語入力の特異性に対する感度を評価するための,ユニークな評価プロトコルを提案する。
当社の広範な評価から,クリップなどのコントラストモデルを含む最先端のvlmは粒度に乏しく,テキスト特異性に敏感であり,オープンワールド設定におけるその効果に影響を与えていることが明らかとなった。
この包括的研究は、これらの視点からvlmを評価する最初の試みであり、コミュニティに貴重な洞察とツールを提供し、ゼロショット認識におけるより良い一般化による拡張モデルの方法を強調している。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM [3.2688425993442696]
多くの調査研究により、最も優れた視覚と言語モデル(VLM)でさえ、構成シーン理解の側面を捉えるのに苦労していることが明らかになった。
VLMの最近の進歩には、モデルサイズとデータセットサイズの両方のスケールアップ、追加のトレーニング目標と監視レベルが含まれる。
本稿では,GradCAMアクティベーションを利用して,事前学習したVLMのグラウンドディング能力を厳格に評価する,新しい定量的メトリクススイートを提案する。
論文 参考訳(メタデータ) (2024-04-29T22:06:17Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。