論文の概要: LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions
- arxiv url: http://arxiv.org/abs/2311.11904v2
- Date: Mon, 19 Feb 2024 09:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:32:21.495163
- Title: LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions
- Title(参考訳): 視覚記述子としてのLLM:視覚記述の進化による画像分類の改善
- Authors: Songhao Han, Le Zhuo, Yue Liao, Si Liu
- Abstract要約: 本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
- 参考スコア(独自算出の注目度): 13.546494268784757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) offer a promising paradigm for image
classification by comparing the similarity between images and class embeddings.
A critical challenge lies in crafting precise textual representations for class
names. While previous studies have leveraged recent advancements in large
language models (LLMs) to enhance these descriptors, their outputs often suffer
from ambiguity and inaccuracy. We attribute this to two primary factors: 1) the
reliance on single-turn textual interactions with LLMs, leading to a mismatch
between generated text and visual concepts for VLMs; 2) the oversight of the
inter-class relationships, resulting in descriptors that fail to differentiate
similar classes effectively. In this paper, we propose a novel framework that
integrates LLMs and VLMs to find the optimal class descriptors. Our
training-free approach develops an LLM-based agent with an evolutionary
optimization strategy to iteratively refine class descriptors. We demonstrate
our optimized descriptors are of high quality which effectively improves
classification accuracy on a wide range of benchmarks. Additionally, these
descriptors offer explainable and robust features, boosting performance across
various backbone models and complementing fine-tuning-based methods.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像とクラス埋め込みの類似性を比較することにより、画像分類に有望なパラダイムを提供する。
重要な課題は、クラス名の正確なテキスト表現を作ることである。
これまでの研究では、これらの記述子を強化するために、大規模言語モデル(LLM)の最近の進歩を活用してきたが、その出力は曖昧さと不正確さに悩まされることが多い。
主な要因は2つあります
1) LLMとの単ターンテキストインタラクションへの依存は, 生成したテキストとVLMの視覚概念とのミスマッチにつながる。
2) クラス間の関係の監視は,類似したクラスを効果的に区別できない記述子をもたらす。
本稿では,llms と vlm を統合し,最適なクラス記述子を求める新しいフレームワークを提案する。
トレーニングフリーのアプローチでは,クラス記述子を反復的に洗練する進化的最適化戦略を持つllmベースのエージェントを開発する。
最適化された記述子は高品質で、幅広いベンチマークの分類精度を効果的に向上する。
さらに、これらのディスクリプタは説明可能で堅牢な機能を提供し、様々なバックボーンモデルのパフォーマンスを高め、微調整ベースのメソッドを補完する。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。