論文の概要: LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions
- arxiv url: http://arxiv.org/abs/2311.11904v1
- Date: Mon, 20 Nov 2023 16:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:50:11.767454
- Title: LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions
- Title(参考訳): 視覚記述子としてのLLM:視覚記述の進化による画像分類の改善
- Authors: Songhao Han, Le Zhuo, Yue Liao, Si Liu
- Abstract要約: 視覚言語モデル(VLM)は、画像とクラス埋め込みの類似性を比較することにより、画像分類に有望なパラダイムを提供する。
本稿では,VLMと大規模言語モデル(LLM)を組み合わせた新しい画像分類フレームワークを提案する。
本手法は,画像分類ベンチマークの精度向上に寄与し,最先端手法よりも平均3.47%向上した。
- 参考スコア(独自算出の注目度): 13.546494268784757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) offer a promising paradigm for image
classification by comparing the similarity between images and class embeddings.
A critical challenge lies in crafting precise textual representations for class
names. While previous studies have leveraged recent advancements in large
language models (LLMs) to enhance these descriptors, their outputs often suffer
from ambiguity and inaccuracy. We identify two primary causes: 1) The prevalent
reliance on textual interactions with LLMs, leading to a mismatch between the
generated text and the visual content in VLMs' latent space - a phenomenon we
term the "explain without seeing" dilemma. 2) The oversight of the inter-class
relationships, resulting in descriptors that fail to differentiate similar
classes effectively. To address these issues, we propose a novel image
classification framework combining VLMs with LLMs, named Iterative Optimization
with Visual Feedback. In particular, our method develops an LLM-based agent,
employing an evolutionary optimization strategy to refine class descriptors.
Crucially, we incorporate visual feedback from VLM classification metrics,
thereby guiding the optimization process with concrete visual data. Our method
leads to improving accuracy on a wide range of image classification benchmarks,
with 3.47\% average gains over state-of-the-art methods. We also highlight the
resulting descriptions serve as explainable and robust features that can
consistently improve the performance across various backbone models.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像とクラス埋め込みの類似性を比較することにより、画像分類に有望なパラダイムを提供する。
重要な課題は、クラス名の正確なテキスト表現を作ることである。
これまでの研究では、これらの記述子を強化するために、大規模言語モデル(LLM)の最近の進歩を活用してきたが、その出力は曖昧さと不正確さに悩まされることが多い。
主な原因は2つあります
1) vlmsの潜在空間におけるテキストと視覚内容のミスマッチを招き、llmとのテキストの相互作用に一般的に依存する現象は「見ずとも」ジレンマと呼ばれる現象である。
2) クラス間の関係の監視は,類似したクラスを効果的に区別できない記述子をもたらす。
これらの問題に対処するために,VLM と LLM を組み合わせた新しい画像分類フレームワークを提案する。
特に,LLMに基づくエージェントを開発し,クラス記述子を改良する進化的最適化手法を用いる。
重要な点として,vlm分類メトリクスからの視覚フィードバックを取り入れ,具体的な視覚データを用いて最適化プロセスを導く。
本手法は, 画像分類ベンチマークの精度が向上し, 最先端手法と比較して平均3.47\%向上した。
また、結果の説明は、様々なバックボーンモデルのパフォーマンスを継続的に改善できる説明可能で堅牢な機能として役立ちます。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。