Fugu-MT 論文翻訳(概要): LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions

論文の概要: LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions

arxiv url: http://arxiv.org/abs/2311.11904v2
Date: Mon, 19 Feb 2024 09:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 04:32:21.495163
Title: LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions
Title（参考訳）: 視覚記述子としてのLLM:視覚記述の進化による画像分類の改善
Authors: Songhao Han, Le Zhuo, Yue Liao, Si Liu
Abstract要約: 本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
参考スコア（独自算出の注目度）: 13.546494268784757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) offer a promising paradigm for image classification by comparing the similarity between images and class embeddings. A critical challenge lies in crafting precise textual representations for class names. While previous studies have leveraged recent advancements in large language models (LLMs) to enhance these descriptors, their outputs often suffer from ambiguity and inaccuracy. We attribute this to two primary factors: 1) the reliance on single-turn textual interactions with LLMs, leading to a mismatch between generated text and visual concepts for VLMs; 2) the oversight of the inter-class relationships, resulting in descriptors that fail to differentiate similar classes effectively. In this paper, we propose a novel framework that integrates LLMs and VLMs to find the optimal class descriptors. Our training-free approach develops an LLM-based agent with an evolutionary optimization strategy to iteratively refine class descriptors. We demonstrate our optimized descriptors are of high quality which effectively improves classification accuracy on a wide range of benchmarks. Additionally, these descriptors offer explainable and robust features, boosting performance across various backbone models and complementing fine-tuning-based methods.
Abstract（参考訳）: 視覚言語モデル(VLM)は、画像とクラス埋め込みの類似性を比較することにより、画像分類に有望なパラダイムを提供する。重要な課題は、クラス名の正確なテキスト表現を作ることである。これまでの研究では、これらの記述子を強化するために、大規模言語モデル(LLM)の最近の進歩を活用してきたが、その出力は曖昧さと不正確さに悩まされることが多い。主な要因は2つあります 1) LLMとの単ターンテキストインタラクションへの依存は, 生成したテキストとVLMの視覚概念とのミスマッチにつながる。 2) クラス間の関係の監視は,類似したクラスを効果的に区別できない記述子をもたらす。本稿では,llms と vlm を統合し,最適なクラス記述子を求める新しいフレームワークを提案する。トレーニングフリーのアプローチでは,クラス記述子を反復的に洗練する進化的最適化戦略を持つllmベースのエージェントを開発する。最適化された記述子は高品質で、幅広いベンチマークの分類精度を効果的に向上する。さらに、これらのディスクリプタは説明可能で堅牢な機能を提供し、様々なバックボーンモデルのパフォーマンスを高め、微調整ベースのメソッドを補完する。

関連論文リスト

Beyond Accuracy: Metrics that Uncover What Makes a 'Good' Visual Descriptor [4.76296755805531]
デクリプタは視覚モデル(VLM)を用いた視覚概念の発見と画像分類に使用される我々は,(1)表現能力,(2)VLM事前学習データとの関係の2つの重要な側面に沿って,記述子の品質を体系的に解析する。表現アライメントと言語理解のアイデアに触発されて,2つのアライメントベースのメトリクス – グローバルアライメントとCLIP類似性 – を導入する。
論文参考訳（メタデータ） (2025-07-04T12:50:04Z)
Does VLM Classification Benefit from LLM Description Semantics? [26.743684911323857]
そこで本研究では,クラス名認識効果とは無関係に機能する識別記述を学習不要に選択する手法を提案する。提案手法では,ローカルなCLIPラベル近傍のクラスを効果的に区別する記述を同定し,分類精度を7つのデータセットで向上する。
論文参考訳（メタデータ） (2024-12-16T16:01:18Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文参考訳（メタデータ） (2024-10-28T18:10:26Z)
Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。 Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。 CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文参考訳（メタデータ） (2024-09-03T12:34:21Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
Videoprompter: an ensemble of foundational models for zero-shot video understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-23T19:45:46Z)
Text Descriptions are Compressive and Invariant Representations for Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文参考訳（メタデータ） (2023-07-10T03:06:45Z)
Waffling around for Performance: Visual Classification with Random Words and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。 LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文参考訳（メタデータ） (2023-06-12T17:59:48Z)
Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-13T17:03:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。