論文の概要: CLIP's Visual Embedding Projector is a Few-shot Cornucopia
- arxiv url: http://arxiv.org/abs/2410.05270v3
- Date: Mon, 17 Mar 2025 17:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:18.001452
- Title: CLIP's Visual Embedding Projector is a Few-shot Cornucopia
- Title(参考訳): CLIPのビジュアル埋め込みプロジェクタ
- Authors: Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick Pérez, Raoul de Charette,
- Abstract要約: 最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 45.93202559299953
- License:
- Abstract: We consider the problem of adapting a contrastively pretrained vision-language model like CLIP (Radford et al., 2021) for few-shot classification. The literature addresses this problem by learning a linear classifier of the frozen visual features, optimizing word embeddings, or learning external feature adapters. We introduce an alternative way for few-shot CLIP adaptation without adding ''external'' parameters to optimize. We find that simply fine-tuning the embedding projection matrix of the vision encoder leads to better performance than all baselines. Furthermore, we show that regularizing training with the distance between the fine-tuned and pretrained matrices adds reliability for adapting CLIP, making the results stable across different learning rates in the ''validation-free'' setting. This simple approach, coined ProLIP, yields state-of-the-art performance on 11 few-shot classification benchmarks, few-shot cross-dataset transfer, domain generalization, and base-to-new class generalization. We also show that ProLIP significantly outperforms prompt tuning when extended to another task of test-time adaptation, while being one order of magnitude faster to train. Code will be made available at: https://github.com/astra-vision/ProLIP .
- Abstract(参考訳): 我々は,CLIP (Radford et al , 2021) のような対照的に事前訓練された視覚言語モデルを,数発の分類に適用する問題を考える。
本論文では, 凍結した視覚特徴の線形分類器の学習, 単語埋め込みの最適化, 外部特徴適応器の学習により, この問題に対処する。
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚エンコーダの埋め込みプロジェクション行列を微調整するだけで,全てのベースラインよりも優れた性能が得られることがわかった。
さらに、微調整された行列と事前訓練された行列の間隔でトレーニングを規則化すると、CLIPの適応に信頼性が増し、'無効'設定の学習速度で安定した結果が得られることを示す。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、少数ショットのクロスデータセット転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
また、ProLIPは、テスト時間適応の他のタスクに拡張された場合のプロンプトチューニングよりも格段に優れており、トレーニングの速度は1桁高速であることを示す。
コードは、https://github.com/astra-vision/ProLIP で利用可能になる。
関連論文リスト
- Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification [46.25272949924458]
VLMのパラメータの微調整は、CLIPモデルの微調整が性能を低下させるため、事前訓練された知識を損なうと考えられている。
ClipFitはCLIPを微調整する手法で、余分なパラメータのオーバーヘッドを発生させることなく提案する。
ClipFitが0ショットCLIPの性能を平均調和平均精度7.27%向上できることを実証した。
論文 参考訳(メタデータ) (2024-09-25T08:07:18Z) - LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。