論文の概要: Visual Classification via Description from Large Language Models
- arxiv url: http://arxiv.org/abs/2210.07183v1
- Date: Thu, 13 Oct 2022 17:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:58:07.513685
- Title: Visual Classification via Description from Large Language Models
- Title(参考訳): 大規模言語モデルからの記述による視覚分類
- Authors: Sachit Menon and Carl Vondrick
- Abstract要約: 視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.932495654407425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) such as CLIP have shown promising performance
on a variety of recognition tasks using the standard zero-shot classification
procedure -- computing similarity between the query image and the embedded
words for each category. By only using the category name, they neglect to make
use of the rich context of additional information that language affords. The
procedure gives no intermediate understanding of why a category is chosen, and
furthermore provides no mechanism for adjusting the criteria used towards this
decision. We present an alternative framework for classification with VLMs,
which we call classification by description. We ask VLMs to check for
descriptive features rather than broad categories: to find a tiger, look for
its stripes; its claws; and more. By basing decisions on these descriptors, we
can provide additional cues that encourage using the features we want to be
used. In the process, we can get a clear idea of what features the model uses
to construct its decision; it gains some level of inherent explainability. We
query large language models (e.g., GPT-3) for these descriptors to obtain them
in a scalable way. Extensive experiments show our framework has numerous
advantages past interpretability. We show improvements in accuracy on ImageNet
across distribution shifts; demonstrate the ability to adapt VLMs to recognize
concepts unseen during training; and illustrate how descriptors can be edited
to effectively mitigate bias compared to the baseline.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、標準のゼロショット分類手順(クエリイメージと各カテゴリの埋め込み単語との類似性を計算する)を使用して、様々な認識タスクにおいて有望なパフォーマンスを示している。
カテゴリ名のみを使用することで、言語が得る追加情報の豊富なコンテキストの使用を怠る。
この手続きは、なぜカテゴリが選択されたかの中間的な理解を与えず、さらに、この決定に使用される基準を調整するメカニズムも提供しない。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
私たちはVLMに、幅広いカテゴリではなく、記述的な特徴を確認するように求めています。
これらの記述子に決定を下すことで、使用したい機能の使用を奨励する追加のヒントを提供することができます。
このプロセスでは、モデルが決定を構築するのにどんな機能を使っているのかを明確に把握できます。
我々はこれらの記述子に対して大規模言語モデル(例えばGPT-3)を問い合わせ、スケーラブルな方法で取得する。
広範な実験により、我々のフレームワークは過去の解釈可能性に多くの利点があることが示された。
分散シフトによるImageNetの精度向上,トレーニング中に目に見えない概念を認識するためにVLMを適用する能力,ベースラインに対するバイアスを効果的に軽減するためにディスクリプタをどのように編集できるかを示す。
関連論文リスト
- Enhancing Visual Classification using Comparative Descriptors [13.094102298155736]
比較記述子という新しい概念を導入する。
これらの記述子は、最も類似したクラスに対してターゲットクラスのユニークな特徴を強調し、差別化を強化する。
追加のフィルタリングプロセスにより、これらのディスクリプタがCLIP空間のイメージ埋め込みに近いことが保証される。
論文 参考訳(メタデータ) (2024-11-08T06:28:02Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - PatchMix Augmentation to Identify Causal Features in Few-shot Learning [55.64873998196191]
少ないショット学習は、十分なカテゴリをラベル付けしたデータに基づいて学習した知識を、少ない既知の情報を持つ新しいカテゴリに転送することを目的としている。
我々はPatchMixと呼ばれる新しいデータ拡張戦略を提案し、この急激な依存関係を壊すことができる。
このような拡張メカニズムが,既存のメカニズムと異なり,因果的特徴を識別可能であることを示す。
論文 参考訳(メタデータ) (2022-11-29T08:41:29Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。