論文の概要: Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling
- arxiv url: http://arxiv.org/abs/2111.03930v1
- Date: Sat, 6 Nov 2021 18:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 09:58:29.835912
- Title: Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling
- Title(参考訳): Tip-Adapter: ビジョンランゲージモデリングのためのトレーニング不要CLIP-Adapter
- Authors: Renrui Zhang, Rongyao Fang, Peng Gao, Wei Zhang, Kunchang Li, Jifeng
Dai, Yu Qiao, Hongsheng Li
- Abstract要約: 我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
- 参考スコア(独自算出の注目度): 78.62723847797382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Vision-Language Pre-training, known as CLIP, has provided a new
paradigm for learning visual representations by using large-scale contrastive
image-text pairs. It shows impressive performance on zero-shot knowledge
transfer to downstream tasks. To further enhance CLIP's few-shot capability,
CLIP-Adapter proposed to fine-tune a lightweight residual feature adapter and
significantly improves the performance for few-shot classification. However,
such a process still needs extra training and computational resources. In this
paper, we propose \textbf{T}raining-Free CL\textbf{IP}-\textbf{Adapter}
(\textbf{Tip-Adapter}), which not only inherits CLIP's training-free advantage
but also performs comparably or even better than CLIP-Adapter. Tip-Adapter does
not require any back propagation for training the adapter, but creates the
weights by a key-value cache model constructed from the few-shot training set.
In this non-parametric manner, Tip-Adapter acquires well-performed adapter
weights without any training, which is both efficient and effective. Moreover,
the performance of Tip-Adapter can be further boosted by fine-tuning such
properly initialized adapter for only a few epochs with super-fast convergence
speed. We conduct extensive experiments of few-shot classification on ImageNet
and other 10 datasets to demonstrate the superiority of proposed Tip-Adapter.
The code will be released at \url{https://github.com/gaopengcuhk/Tip-Adapter}.
- Abstract(参考訳): CLIPとして知られるContrastive Vision-Language Pre-trainingは、大規模なコントラスト画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
ダウンストリームタスクへのゼロショットの知識転送で印象的なパフォーマンスを示す。
CLIP-Adapterは、CLIPの少数ショット機能をさらに強化するため、軽量な残留機能アダプタを微調整し、少数ショット分類のパフォーマンスを大幅に改善することを提案した。
しかし、そのようなプロセスには追加のトレーニングと計算資源が必要である。
本稿では、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視的、あるいはさらに優れた性能を発揮する、 \textbf{T}raining-Free CL\textbf{IP}-\textbf{Adapter} (\textbf{Tip-Adapter})を提案する。
Tip-Adapterはアダプタをトレーニングするためにバックプロパゲーションを必要としないが、数ショットのトレーニングセットから構築されたキー値キャッシュモデルによって重みが生成される。
この非パラメトリックな方法では、Tip-Adapterはトレーニングなしで十分な性能のアダプタウェイトを取得する。
さらに、そのような適切な初期化アダプタを、超高速収束速度でほんの数エポックで微調整することで、チップアダプタの性能をさらに向上させることができる。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類実験を行った。
コードは \url{https://github.com/gaopengcuhk/Tip-Adapter} でリリースされる。
関連論文リスト
- Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。