論文の概要: Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement
- arxiv url: http://arxiv.org/abs/2304.01195v1
- Date: Mon, 3 Apr 2023 17:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:06:41.547864
- Title: Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement
- Title(参考訳): すべての機能が重要ではない: 適応的な事前リファインメントによるFew-shot CLIPの強化
- Authors: Xiangyang Zhu, Renrui Zhang, Bowei He, Aojun Zhou, Dong Wang, Bin
Zhao, Peng Gao
- Abstract要約: 本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
- 参考スコア(独自算出の注目度): 24.108008515395458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popularity of Contrastive Language-Image Pre-training (CLIP) has
propelled its application to diverse downstream vision tasks. To improve its
capacity on downstream tasks, few-shot learning has become a widely-adopted
technique. However, existing methods either exhibit limited performance or
suffer from excessive learnable parameters. In this paper, we propose APE, an
Adaptive Prior rEfinement method for CLIP's pre-trained knowledge, which
achieves superior accuracy with high computational efficiency. Via a prior
refinement module, we analyze the inter-class disparity in the downstream data
and decouple the domain-specific knowledge from the CLIP-extracted cache model.
On top of that, we introduce two model variants, a training-free APE and a
training-required APE-T. We explore the trilateral affinities between the test
image, prior cache model, and textual representations, and only enable a
lightweight category-residual module to be trained. For the average accuracy
over 11 benchmarks, both APE and APE-T attain state-of-the-art and respectively
outperform the second-best by +1.59% and +1.99% under 16 shots with x30 less
learnable parameters.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) の人気は、様々な下流視覚タスクへの応用を促している。
下流タスクの能力を向上させるために、数発の学習が広く採用されている。
しかし、既存の方法は限られた性能を示すか、過剰に学習可能なパラメータに悩まされる。
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
先行改良モジュールを用いて下流データにおけるクラス間格差を分析し,そのドメイン固有の知識をクリップ抽出キャッシュモデルから分離する。
それに加えて、トレーニング不要のAPEとトレーニング不要のAPE-Tの2つのモデル変種を導入する。
テスト画像,事前キャッシュモデル,テキスト表現間の三国間親和性を探索し,軽量なカテゴリ対応モジュールのトレーニングのみを可能にする。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
関連論文リスト
- A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Selective classification using a robust meta-learning approach [28.460912135533988]
本稿では,補助ネットワークを用いて予測不確実性を捉えるインスタンス条件の再重み付け手法を提案する。
制御された実験において、このメタオブジェクトを通して様々な不確実性の概念を効果的に捉えていることを示す。
糖尿病網膜症では、最大3.4%/3.3%の精度でSOTAを上回り、選択的分類ではAUCが上昇する。
論文 参考訳(メタデータ) (2022-12-12T15:45:23Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Efficient Fine-Tuning of Compressed Language Models with Learners [12.768368718187428]
本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-08-03T13:42:30Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。