論文の概要: Challenges of Zero-Shot Recognition with Vision-Language Models:
Granularity and Correctness
- arxiv url: http://arxiv.org/abs/2306.16048v1
- Date: Wed, 28 Jun 2023 09:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:54:41.240902
- Title: Challenges of Zero-Shot Recognition with Vision-Language Models:
Granularity and Correctness
- Title(参考訳): 視覚言語モデルによるゼロショット認識の課題:粒度と正確性
- Authors: Zhenlin Xu, Yi Zhu, Tiffany Deng, Abhay Mittal, Yanbei Chen, Manchen
Wang, Paolo Favaro, Joseph Tighe, Davide Modolo
- Abstract要約: 本稿では、オープンワールド環境におけるゼロショット視覚認識タスクに視覚言語モデルを適用する際の課題について検討する。
視覚言語モデル(VLM)は,より微細な概念を認識するのに優れている。
- 参考スコア(独自算出の注目度): 40.31511679996393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the challenges of applying vision-language models
(VLMs) to zero-shot visual recognition tasks in an open-world setting, with a
focus on contrastive vision-language models such as CLIP. We first examine the
performance of VLMs on concepts of different granularity levels. We propose a
way to fairly evaluate the performance discrepancy under two experimental
setups and find that VLMs are better at recognizing fine-grained concepts.
Furthermore, we find that the similarity scores from VLMs do not strictly
reflect the correctness of the textual inputs given visual input. We propose an
evaluation protocol to test our hypothesis that the scores can be biased
towards more informative descriptions, and the nature of the similarity score
between embedding makes it challenging for VLMs to recognize the correctness
between similar but wrong descriptions. Our study highlights the challenges of
using VLMs in open-world settings and suggests directions for future research
to improve their zero-shot capabilities.
- Abstract(参考訳): 本稿では,オープンワールドにおけるゼロショット視覚認識タスクに視覚言語モデル(vlms)を適用する際の課題について,クリップなどのコントラスト的視覚言語モデルに着目して検討する。
まず,様々な粒度の概念に対するvlmの性能について検討した。
我々は,2つの実験環境において,性能不一致を公平に評価する方法を提案し,vlmがきめ細かい概念を認識するのに優れていることを示す。
さらに,vlmsの類似度スコアは,視覚入力によるテキスト入力の正確さを厳密に反映しないことがわかった。
本稿では,より情報的な記述に対してスコアが偏りがあるという仮説を検証するための評価プロトコルを提案し,組込み間の類似性スコアの性質は,VLMが類似する記述間の正しさを認識するのを困難にしている。
本研究は,VLMをオープンワールド環境で使用する上での課題を強調し,今後のゼロショット機能向上に向けた方向性を提案する。
関連論文リスト
- VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models [20.92507667350599]
本稿では、視覚言語モデルによるビデオ異常検出を可能にするVERAという言語学習フレームワークを提案する。
VERAは、VADに必要な複雑な推論を、よりシンプルでより焦点を絞った質問のリフレクションに分解する。
推論中、VERAは学習した質問をモデルプロンプトに埋め込んで、セグメントレベルの異常スコアを生成するVLMをガイドする。
論文 参考訳(メタデータ) (2024-12-02T04:10:14Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM [3.2688425993442696]
多くの調査研究により、最も優れた視覚と言語モデル(VLM)でさえ、構成シーン理解の側面を捉えるのに苦労していることが明らかになった。
VLMの最近の進歩には、モデルサイズとデータセットサイズの両方のスケールアップ、追加のトレーニング目標と監視レベルが含まれる。
本稿では,GradCAMアクティベーションを利用して,事前学習したVLMのグラウンドディング能力を厳格に評価する,新しい定量的メトリクススイートを提案する。
論文 参考訳(メタデータ) (2024-04-29T22:06:17Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。