論文の概要: AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2309.16414v2
- Date: Fri, 29 Sep 2023 08:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 10:18:18.146521
- Title: AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models
- Title(参考訳): AutoCLIP:視覚言語モデルのための自動調整ゼロショット分類器
- Authors: Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi
- Abstract要約: AutoCLIPは、クラス記述子-画像類似性の統計に基づいて、推論時に各プロンプトテンプレートに画像毎の重みをチューニングする。
AutoCLIPは、幅広いビジョン言語モデル、データセットでベースラインを上回り、テンプレートを一貫して、最大3%精度でプロンプトすることを示す。
- 参考スコア(独自算出の注目度): 14.57879683097891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifiers built upon vision-language models such as CLIP have shown
remarkable zero-shot performance across a broad range of image classification
tasks. Prior work has studied different ways of automatically creating
descriptor sets for every class based on prompt templates, ranging from
manually engineered templates over templates obtained from a large language
model to templates built from random words and characters. Up until now,
deriving zero-shot classifiers from the respective encoded class descriptors
has remained nearly unchanged, i.e., classify to the class that maximizes
cosine similarity between its averaged encoded class descriptors and the image
encoding. However, weighing all class descriptors equally can be suboptimal
when certain descriptors match visual clues on a given image better than
others. In this work, we propose AutoCLIP, a method for auto-tuning zero-shot
classifiers. AutoCLIP tunes per-image weights to each prompt template at
inference time, based on statistics of class descriptor-image similarities.
AutoCLIP is fully unsupervised, has very low computational overhead, and can be
easily implemented in few lines of code. We show that AutoCLIP outperforms
baselines across a broad range of vision-language models, datasets, and prompt
templates consistently and by up to 3 percent point accuracy.
- Abstract(参考訳): CLIPのような視覚言語モデル上に構築された分類器は、幅広い画像分類タスクで顕著なゼロショット性能を示している。
これまでの研究では、プロンプトテンプレートに基づいた各クラス用の記述子セットを自動生成する方法を、手作業によるテンプレートから、大きな言語モデルから得られたテンプレートまで、ランダムな単語や文字で構築されたテンプレートまで、さまざまな方法で研究してきた。
これまで、各エンコードされたクラス記述子からゼロショットの分類子を導出することは、ほとんど変わらない、すなわち、平均エンコードされたクラス記述子と画像符号化子のコサイン類似性を最大化するクラスに分類された。
しかし、全てのクラス記述子を等しく重くすることは、特定の記述子が与えられた画像上の視覚的な手がかりと他の画像よりもマッチする場合に最適である。
本研究では,ゼロショット分類器の自動調整手法であるAutoCLIPを提案する。
AutoCLIPは、クラス記述子-画像類似性の統計に基づいて、推論時に各プロンプトテンプレートに画像毎の重みをチューニングする。
AutoCLIPは完全に教師なしで、計算オーバーヘッドが非常に少なく、数行のコードで簡単に実装できる。
AutoCLIPは、幅広いビジョン言語モデル、データセットでベースラインを上回り、テンプレートを一貫して、最大3%精度でプロンプトすることを示す。
関連論文リスト
- CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。