論文の概要: African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification
- arxiv url: http://arxiv.org/abs/2406.14496v1
- Date: Thu, 20 Jun 2024 16:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:33:17.539978
- Title: African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification
- Title(参考訳): アフリカかヨーロッパか? 細粒度物体分類のための大規模視覚言語モデルのベンチマーク
- Authors: Gregor Geigle, Radu Timofte, Goran Glavaš,
- Abstract要約: textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
- 参考スコア(独自算出の注目度): 53.89380284760555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Vision-Language Models (LVLMs) demonstrate impressive abilities on numerous image understanding and reasoning tasks. The task of fine-grained object classification (e.g., distinction between \textit{animal species}), however, has been probed insufficiently, despite its downstream importance. We fill this evaluation gap by creating \texttt{FOCI} (\textbf{F}ine-grained \textbf{O}bject \textbf{C}lass\textbf{I}fication), a difficult multiple-choice benchmark for fine-grained object classification, from existing object classification datasets: (1) multiple-choice avoids ambiguous answers associated with casting classification as open-ended QA task; (2) we retain classification difficulty by mining negative labels with a CLIP model. \texttt{FOCI}\xspace complements five popular classification datasets with four domain-specific subsets from ImageNet-21k. We benchmark 12 public LVLMs on \texttt{FOCI} and show that it tests for a \textit{complementary skill} to established image understanding and reasoning benchmarks. Crucially, CLIP models exhibit dramatically better performance than LVLMs. Since the image encoders of LVLMs come from these CLIP models, this points to inadequate alignment for fine-grained object distinction between the encoder and the LLM and warrants (pre)training data with more fine-grained annotation. We release our code at \url{https://github.com/gregor-ge/FOCI-Benchmark}.
- Abstract(参考訳): 最近のLVLM(Large Vision-Language Models)は、多くの画像理解と推論タスクにおいて印象的な能力を示している。
しかし、細粒度オブジェクト分類(例: \textit{animal species} の区別)の課題は下流の重要性にもかかわらず、不十分に調査されている。
我々は、既存のオブジェクト分類データセットから、細粒度オブジェクト分類のための難易度ベンチマークである \texttt{FOCI} (\textbf{F}ine-fine \textbf{O}bject \textbf{C}lass\textbf{I}fication) を作成することにより、この評価ギャップを埋める。
\texttt{FOCI}\xspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
我々は、12の公開LVLMをtexttt{FOCI}上でベンチマークし、確立された画像理解および推論ベンチマークに対して、textit{complementary skill}をテストしていることを示す。
重要な点として、CLIPモデルはLVLMよりも劇的に優れた性能を示している。
LVLMのイメージエンコーダはこれらのCLIPモデルに由来するため、このことは、エンコーダとLLMの微粒なオブジェクト区別と、より微細なアノテーションによる保証(pre)訓練データとの整合性が不十分であることを示している。
ソースコードは \url{https://github.com/gregor-ge/FOCI-Benchmark} で公開しています。
関連論文リスト
- GraphVL: Graph-Enhanced Semantic Modeling via Vision-Language Models for Generalized Class Discovery [11.006059998223908]
一般化カテゴリー発見(GCD)における視覚言語モデリングの新しいアプローチであるGraphVLを紹介する。
グラフ畳み込みネットワーク(GCN)とCLIPのテキストエンコーダを統合し,クラス近傍構造を保存する。
ベンチマークデータセットの7つの実験は、CLIPバックボーンと統合した場合のGraphVLの優位性を一貫して示している。
論文 参考訳(メタデータ) (2024-11-04T13:26:15Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - ClusterLLM: Large Language Models as a Guide for Text Clustering [45.835625439515]
本稿では,ChatGPTのような命令調整型大規模言語モデルからのフィードバックを活用する新しいテキストクラスタリングフレームワークであるClusterLLMを紹介する。
ClusterLLMはクラスタリングの品質を継続的に改善し、平均コストはデータセットあたり0.6ドルである。
論文 参考訳(メタデータ) (2023-05-24T08:24:25Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。