論文の概要: Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification
- arxiv url: http://arxiv.org/abs/2207.09519v1
- Date: Tue, 19 Jul 2022 19:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:31:59.564601
- Title: Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification
- Title(参考訳): Tip-Adapter:Few-shot分類のためのCLIPのトレーニング不要適応
- Authors: Renrui Zhang, Zhang Wei, Rongyao Fang, Peng Gao, Kunchang Li, Jifeng
Dai, Yu Qiao, Hongsheng Li
- Abstract要約: 対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
- 参考スコア(独自算出の注目度): 58.06983806317233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Vision-Language Pre-training, known as CLIP, has provided a new
paradigm for learning visual representations using large-scale image-text
pairs. It shows impressive performance on downstream tasks by zero-shot
knowledge transfer. To further enhance CLIP's adaption capability, existing
methods proposed to fine-tune additional learnable modules, which significantly
improves the few-shot performance but introduces extra training time and
computational resources. In this paper, we propose a training-free adaption
method for CLIP to conduct few-shot classification, termed as Tip-Adapter,
which not only inherits the training-free advantage of zero-shot CLIP but also
performs comparably to those training-required approaches. Tip-Adapter
constructs the adapter via a key-value cache model from the few-shot training
set, and updates the prior knowledge encoded in CLIP by feature retrieval. On
top of that, the performance of Tip-Adapter can be further boosted to be
state-of-the-art on ImageNet by fine-tuning the cache model for 10$\times$
fewer epochs than existing methods, which is both effective and efficient. We
conduct extensive experiments of few-shot classification on 11 datasets to
demonstrate the superiority of our proposed methods. Code is released at
https://github.com/gaopengcuhk/Tip-Adapter.
- Abstract(参考訳): 対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
ダウンストリームタスクのゼロショット知識転送による印象的なパフォーマンスを示す。
CLIPの適応性をさらに強化するため、学習可能なモジュールを微調整する既存の手法が提案されている。
本稿では、Tip-Adapterと呼ばれる、ゼロショットCLIPのトレーニング不要な利点を継承するだけでなく、これらのトレーニング要求されたアプローチと互換性のある、CLIPのトレーニング不要な適応手法を提案する。
Tip-Adapterは、数ショットのトレーニングセットからキー値キャッシュモデルを介してアダプタを構築し、機能検索によってCLIPでエンコードされた以前の知識を更新する。
それに加えて、pip-adapterのパフォーマンスは、既存のメソッドよりも10$\times$少ないエポックでキャッシュモデルを微調整することで、imagenetにおける最先端のパフォーマンスをさらに高めることができる。
提案手法の優越性を示すため,11個のデータセットで少数ショットの分類実験を行った。
コードはhttps://github.com/gaopengcuhk/tip-adapterでリリースされる。
関連論文リスト
- ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models [8.66217922377209]
Contrastive Language-Image Pretraining (CLIP)は、様々な視覚的下流タスクに広く応用されている。
本稿ではカーネルの観点からTip-Adapterを再検討し、キャッシュメソッドがローカルアダプタとして機能することを示す。
本稿では,CLIPをベースラーナとして,再現カーネルHilbert空間における近似正規化子を学習するグローバルな手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T21:25:53Z) - IDEA: Image Description Enhanced CLIP-Adapter [23.446016867479138]
画像分類タスクにCLIPを適用するための画像記述強化CLIP-Adapter (IDEA) 手法を提案する。
IDEAは、画像の視覚的特徴とテキスト記述の両方を活用することで、きめ細かい機能をキャプチャする。
重要な貢献の一つとして、Llamaモデルを採用し、11データセットの画像のテキスト記述を生成する包括的なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-01-15T14:12:59Z) - Adapter-Enhanced Semantic Prompting for Continual Learning [91.63494614012362]
継続学習(CL)は、モデルが進化するデータストリームに適応できるようにする。
従来のメソッドは通常、再生のために過去のデータを保持したり、新しい知識を学ぶためにモデルに追加のブランチを追加したりします。
本稿では,プロンプトチューニングとアダプタ技術を統合した軽量CLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-15T06:14:55Z) - Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚の最後のプロジェクション行列を微調整するだけで、全てのベースラインよりもパフォーマンスが向上することがわかった。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマークで最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling [78.62723847797382]
我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
論文 参考訳(メタデータ) (2021-11-06T18:09:22Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。