論文の概要: Challenges of Zero-Shot Recognition with Vision-Language Models:
Granularity and Correctness
- arxiv url: http://arxiv.org/abs/2306.16048v1
- Date: Wed, 28 Jun 2023 09:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:54:41.240902
- Title: Challenges of Zero-Shot Recognition with Vision-Language Models:
Granularity and Correctness
- Title(参考訳): 視覚言語モデルによるゼロショット認識の課題:粒度と正確性
- Authors: Zhenlin Xu, Yi Zhu, Tiffany Deng, Abhay Mittal, Yanbei Chen, Manchen
Wang, Paolo Favaro, Joseph Tighe, Davide Modolo
- Abstract要約: 本稿では、オープンワールド環境におけるゼロショット視覚認識タスクに視覚言語モデルを適用する際の課題について検討する。
視覚言語モデル(VLM)は,より微細な概念を認識するのに優れている。
- 参考スコア(独自算出の注目度): 40.31511679996393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the challenges of applying vision-language models
(VLMs) to zero-shot visual recognition tasks in an open-world setting, with a
focus on contrastive vision-language models such as CLIP. We first examine the
performance of VLMs on concepts of different granularity levels. We propose a
way to fairly evaluate the performance discrepancy under two experimental
setups and find that VLMs are better at recognizing fine-grained concepts.
Furthermore, we find that the similarity scores from VLMs do not strictly
reflect the correctness of the textual inputs given visual input. We propose an
evaluation protocol to test our hypothesis that the scores can be biased
towards more informative descriptions, and the nature of the similarity score
between embedding makes it challenging for VLMs to recognize the correctness
between similar but wrong descriptions. Our study highlights the challenges of
using VLMs in open-world settings and suggests directions for future research
to improve their zero-shot capabilities.
- Abstract(参考訳): 本稿では,オープンワールドにおけるゼロショット視覚認識タスクに視覚言語モデル(vlms)を適用する際の課題について,クリップなどのコントラスト的視覚言語モデルに着目して検討する。
まず,様々な粒度の概念に対するvlmの性能について検討した。
我々は,2つの実験環境において,性能不一致を公平に評価する方法を提案し,vlmがきめ細かい概念を認識するのに優れていることを示す。
さらに,vlmsの類似度スコアは,視覚入力によるテキスト入力の正確さを厳密に反映しないことがわかった。
本稿では,より情報的な記述に対してスコアが偏りがあるという仮説を検証するための評価プロトコルを提案し,組込み間の類似性スコアの性質は,VLMが類似する記述間の正しさを認識するのを困難にしている。
本研究は,VLMをオープンワールド環境で使用する上での課題を強調し,今後のゼロショット機能向上に向けた方向性を提案する。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。