論文の概要: Benchmarking Zero-Shot Recognition with Vision-Language Models:
Challenges on Granularity and Specificity
- arxiv url: http://arxiv.org/abs/2306.16048v2
- Date: Mon, 29 Jan 2024 10:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:32:25.964960
- Title: Benchmarking Zero-Shot Recognition with Vision-Language Models:
Challenges on Granularity and Specificity
- Title(参考訳): 視覚言語モデルによるゼロショット認識のベンチマーク:粒度と特異性への挑戦
- Authors: Zhenlin Xu, Yi Zhu, Tiffany Deng, Abhay Mittal, Yanbei Chen, Manchen
Wang, Paolo Favaro, Joseph Tighe, Davide Modolo
- Abstract要約: 本稿では、実世界のゼロショット認識タスクにおいて、視覚言語モデル(VLM)を評価するための革新的なベンチマークを紹介する。
本研究では,画像ネットとMS-COCOデータセットを用いて,概念の粒度レベルでの認識におけるモデルの一貫性を評価する。
- 参考スコア(独自算出の注目度): 47.59279298300943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces innovative benchmarks to evaluate Vision-Language
Models (VLMs) in real-world zero-shot recognition tasks, focusing on the
granularity and specificity of prompting text. We propose a unique evaluation
protocol using adapted ImageNet and MS-COCO datasets to assess models'
consistency in recognizing concepts at varying granularity levels and their
sensitivity to the specificity of language inputs. Our extensive evaluation
reveals that state-of-the-art VLMs, including contrastive models like CLIP,
struggle with granularity and are sensitive to text specificity, impacting
their effectiveness in open-world settings. This comprehensive study, a first
in evaluating VLMs from these perspectives, provides valuable insights and
tools for the community, highlighting the limitations and paving the way for
enhanced models with better generalization in zero-shot recognition.
- Abstract(参考訳): 本稿では,実世界のゼロショット認識タスクにおける視覚言語モデル(vlms)を評価するための革新的なベンチマークを紹介する。
適応されたImageNetとMS-COCOデータセットを用いて,概念の粒度レベルでの認識におけるモデルの一貫性と,言語入力の特異性に対する感度を評価するための,ユニークな評価プロトコルを提案する。
当社の広範な評価から,クリップなどのコントラストモデルを含む最先端のvlmは粒度に乏しく,テキスト特異性に敏感であり,オープンワールド設定におけるその効果に影響を与えていることが明らかとなった。
この包括的研究は、これらの視点からvlmを評価する最初の試みであり、コミュニティに貴重な洞察とツールを提供し、ゼロショット認識におけるより良い一般化による拡張モデルの方法を強調している。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。