論文の概要: Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia
- arxiv url: http://arxiv.org/abs/2410.05270v1
- Date: Mon, 7 Oct 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:47:38.481194
- Title: Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia
- Title(参考訳): 最後のビジュアルプロジェクター「Fun-Tuning CLIP」
- Authors: Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick Pérez, Raoul de Charette,
- Abstract要約: 本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。
おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 45.93202559299953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of adapting a contrastively pretrained vision-language model like CLIP (Radford et al., 2021) for few-shot classification. The existing literature addresses this problem by learning a linear classifier of the frozen visual features, optimizing word embeddings, or learning external feature adapters. This paper introduces an alternative way for CLIP adaptation without adding 'external' parameters to optimize. We find that simply fine-tuning the last projection matrix of the vision encoder leads to strong performance compared to the existing baselines. Furthermore, we show that regularizing training with the distance between the fine-tuned and pretrained matrices adds reliability for adapting CLIP through this layer. Perhaps surprisingly, this approach, coined ProLIP, yields performances on par or better than state of the art on 11 few-shot classification benchmarks, few-shot domain generalization, cross-dataset transfer and test-time adaptation. Code will be made available at https://github.com/astra-vision/ProLIP .
- Abstract(参考訳): 我々は,CLIP (Radford et al , 2021) のような対照的に事前訓練された視覚言語モデルを,数発の分類に適用する問題を考える。
既存の文献では、凍結した視覚特徴の線形分類器を学習し、単語の埋め込みを最適化し、外部特徴適応器を学習することでこの問題に対処している。
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚エンコーダの最後のプロジェクション行列を微調整するだけで,既存のベースラインと比較して高い性能が得られることがわかった。
さらに、微調整された行列と事前訓練された行列の間隔でトレーニングを規則化することで、この層を通したCLIPの適応の信頼性が向上することを示した。
意外なことに、このアプローチはProLIPと呼ばれ、11のいくつかのショット分類ベンチマーク、少数ショットドメインの一般化、クロスデータセット転送、テスト時間適応の最先端よりもパフォーマンスが良い。
コードはhttps://github.com/astra-vision/ProLIPで公開される。
関連論文リスト
- Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification [46.25272949924458]
VLMのパラメータの微調整は、CLIPモデルの微調整が性能を低下させるため、事前訓練された知識を損なうと考えられている。
ClipFitはCLIPを微調整する手法で、余分なパラメータのオーバーヘッドを発生させることなく提案する。
ClipFitが0ショットCLIPの性能を平均調和平均精度7.27%向上できることを実証した。
論文 参考訳(メタデータ) (2024-09-25T08:07:18Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。