論文の概要: Is Less More? Exploring Token Condensation as Training-free Adaptation for CLIP
- arxiv url: http://arxiv.org/abs/2410.14729v2
- Date: Thu, 21 Nov 2024 12:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:26.619288
- Title: Is Less More? Exploring Token Condensation as Training-free Adaptation for CLIP
- Title(参考訳): より少ないか?-CLIPのトレーニング不要適応としてのトーケン凝縮を探る
- Authors: Zixin Wang, Dong Gong, Sen Wang, Zi Huang, Yadan Luo,
- Abstract要約: 比較言語画像事前訓練(CLIP)は画像分類において顕著な一般化能力を示した。
CLIPは、ゼロショット推論中にダウンストリームデータセットのパフォーマンス低下に遭遇することがある。
このようなケースでCLIPのパフォーマンス低下に効率的に対処できる、トレーニング不要のアプローチはありますか?
- 参考スコア(独自算出の注目度): 43.09801987385207
- License:
- Abstract: Contrastive language-image pre-training (CLIP) has shown remarkable generalization ability in image classification. However, CLIP sometimes encounters performance drops on downstream datasets during zero-shot inference. Test-time adaptation methods attempt to mitigate this by adjusting normalization layers or tuning context prompts with large batch sizes and extensive augmentations; yet, these methods are computationally intensive. This raises an important question: Is there a training-free approach that can efficiently address CLIP's performance drop in such cases? To explore this, we benchmark token condensation techniques, originally designed to enhance the efficiency of vision transformers, on CLIP zero-shot inference tasks. We observe that although token condensation may compromise in-domain accuracy, it surprisingly enhances CLIP's performance on certain cross-dataset benchmarks. This motivates two key inquiries: (1) Can token condensation serve as a "free-lunch" solution for CLIP zero-shot inference? (2) What criteria should guide condensation -- how can essential tokens be identified and redundant ones eliminated? To address these questions, we propose Token Condensation as Adaptation (TCA), a training-free adaptation method for CLIP by pruning class-irrelevant visual tokens while merging class-ambiguous tokens. As the first approach for CLIP's token efficiency, TCA demonstrates superior performance across cross-dataset tasks, achieving up to a 21.4\% improvement over the strongest baseline while reducing GFLOPs by 12.2\% to 48.9\%, with minimized hyperparameter dependency.
- Abstract(参考訳): 比較言語画像事前訓練(CLIP)は画像分類において顕著な一般化能力を示した。
しかし、CLIPはゼロショット推論中にダウンストリームデータセットのパフォーマンス低下に遭遇することがある。
テスト時間適応法は、正規化層を調整したり、大きなバッチサイズと広範囲な拡張でコンテキストプロンプトを調整することでこれを緩和しようとするが、これらの手法は計算集約的である。
このようなケースでCLIPのパフォーマンス低下に効率的に対処できる、トレーニング不要のアプローチはありますか?
これを調べるために、CLIPゼロショット推論タスクにおいて、もともとビジョントランスフォーマーの効率を高めるために設計されたトークン凝縮手法をベンチマークした。
トークンの凝縮はドメイン内の精度を損なう可能性があるが、特定のクロスデータセットベンチマークにおけるCLIPの性能は驚くほど向上する。
1)トークンの凝縮はCLIPゼロショット推論の"フリーランチ"ソリューションとして機能するのか?
(2) 凝縮を導くための基準は何か -- 重要なトークンをどうやって識別し、冗長なトークンを排除できるのか?
このような問題に対処するために,クラス無関係な視覚トークンを抽出し,クラス無意味なトークンをマージしてCLIPのトレーニング自由適応手法であるToken Condensation as Adaptation (TCA)を提案する。
CLIPのトークン効率の最初のアプローチとして、TCAはクロスデータセットタスク間での優れたパフォーマンスを示し、最強のベースラインに対して最大21.4\%の改善を達成し、GFLOPを12.2\%から48.9\%に削減し、ハイパーパラメータ依存性を最小限に抑える。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs [24.991684983495542]
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
論文 参考訳(メタデータ) (2024-03-22T19:41:26Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。