論文の概要: Does VLM Classification Benefit from LLM Description Semantics?
- arxiv url: http://arxiv.org/abs/2412.11917v1
- Date: Mon, 16 Dec 2024 16:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:40.142707
- Title: Does VLM Classification Benefit from LLM Description Semantics?
- Title(参考訳): VLM分類はLLM記述セマンティックスに相応しいか?
- Authors: Pingchuan Ma, Lennart Rietdorf, Dmytro Kotovenko, Vincent Tao Hu, Björn Ommer,
- Abstract要約: 本稿では,クラス名アンサンブル効果とは無関係に機能する識別的記述を選択するための学習自由手法を提案する。
7つのデータセットにまたがる分類精度の向上を実証し,説明に基づく画像分類の妥当性について考察した。
- 参考スコア(独自算出の注目度): 26.743684911323857
- License:
- Abstract: Accurately describing images via text is a foundation of explainable AI. Vision-Language Models (VLMs) like CLIP have recently addressed this by aligning images and texts in a shared embedding space, expressing semantic similarities between vision and language embeddings. VLM classification can be improved with descriptions generated by Large Language Models (LLMs). However, it is difficult to determine the contribution of actual description semantics, as the performance gain may also stem from a semantic-agnostic ensembling effect. Considering this, we ask how to distinguish the actual discriminative power of descriptions from performance boosts that potentially rely on an ensembling effect. To study this, we propose an alternative evaluation scenario that shows a characteristic behavior if the used descriptions have discriminative power. Furthermore, we propose a training-free method to select discriminative descriptions that work independently of classname ensembling effects. The training-free method works in the following way: A test image has a local CLIP label neighborhood, i.e., its top-$k$ label predictions. Then, w.r.t. to a small selection set, we extract descriptions that distinguish each class well in the local neighborhood. Using the selected descriptions, we demonstrate improved classification accuracy across seven datasets and provide in-depth analysis and insights into the explainability of description-based image classification by VLMs.
- Abstract(参考訳): 正確に画像をテキストで記述することは、説明可能なAIの基礎である。
CLIPのようなVLM(Vision-Language Model)は、最近、画像とテキストを共有埋め込み空間に整列させ、視覚と言語埋め込みのセマンティックな類似性を表現することで、この問題に対処した。
VLM分類は、LLM(Large Language Models)によって生成された記述によって改善される。
しかし、実際の記述セマンティクスの寄与を判断することは困難であり、性能向上は意味論に依存しないアンサンブル効果にも起因している可能性がある。
これを踏まえて、我々は、実際の識別力と、アンサンブル効果に依存する可能性のあるパフォーマンス向上を区別する方法を問う。
そこで本研究では,使用済み記述が識別力を持つ場合の特徴的挙動を示す代替評価シナリオを提案する。
さらに,クラス名アンサンブル効果とは無関係に機能する識別的記述を選択するための学習自由手法を提案する。
テスト画像は、ローカルなCLIPラベルの近傍、すなわち、その上位$kのラベルの予測を持つ。
そして、小さな選択集合に対して、各クラスを局所的によく区別する記述を抽出する。
選択した記述を用いて、7つのデータセット間での分類精度の向上と、VLMによる記述に基づく画像分類の詳細な分析と説明可能性に関する洞察を提供する。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Follow-Up Differential Descriptions: Language Models Resolve Ambiguities for Image Classification [8.663915072332834]
Follow-up Differential Descriptions (FuDD)は、クラス記述を各データセットに合わせて調整するゼロショットアプローチである。
FuDDはまず各画像のあいまいなクラスを特定し、次にLarge Language Model(LLM)を使用して、それらの区別する新しいクラス記述を生成する。
FuDD は,12 個のデータセットに対して,汎用的な記述アンサンブルやナイーブな LLM 生成記述を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-11-10T05:24:07Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。