論文の概要: CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet
- arxiv url: http://arxiv.org/abs/2212.06138v1
- Date: Mon, 12 Dec 2022 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:35:06.045147
- Title: CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet
- Title(参考訳): CLIP Itselfは強力なファインタナーで、ImageNetのViT-BとViT-Lで85.7%と88.0%のTop-1の精度を達成した
- Authors: Xiaoyi Dong and Jianmin Bao and Ting Zhang and Dongdong Chen and
Shuyang Gu and Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and
Nenghai Yu
- Abstract要約: CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
- 参考スコア(独自算出の注目度): 139.56863124214905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that CLIP has achieved remarkable success in
performing zero-shot inference while its fine-tuning performance is not
satisfactory. In this paper, we identify that fine-tuning performance is
significantly impacted by hyper-parameter choices. We examine various key
hyper-parameters and empirically evaluate their impact in fine-tuning CLIP for
classification tasks through a comprehensive study. We find that the
fine-tuning performance of CLIP is substantially underestimated. Equipped with
hyper-parameter refinement, we demonstrate CLIP itself is better or at least
competitive in fine-tuning compared with large-scale supervised pre-training
approaches or latest works that use CLIP as prediction targets in Masked Image
Modeling. Specifically, CLIP ViT-Base/16 and CLIP ViT-Large/14 can achieve
85.7%,88.0% finetuning Top-1 accuracy on the ImageNet-1K dataset . These
observations challenge the conventional conclusion that CLIP is not suitable
for fine-tuning, and motivate us to rethink recently proposed improvements
based on CLIP. We will release our code publicly at
\url{https://github.com/LightDXY/FT-CLIP}.
- Abstract(参考訳): 近年の研究では、CLIPはゼロショット推論に成功しているが、微調整性能は不十分である。
本稿では,超パラメータ選択による微調整性能の影響について検討する。
各種重要パラメータについて検討し,分類タスクにおける微調整CLIPの影響を包括的研究により実証的に評価した。
CLIPの微調整性能はかなり過小評価されている。
大規模教師付き事前トレーニングアプローチや,Masked Image Modelingの予測ターゲットとしてCLIPを使用する最新の研究と比較して,CLIP自体が微調整において優れているか,少なくとも競争的であることを示す。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1Kデータセット上のTop-1精度を85.7%、88.0%微調整することができる。
これらの観察は、CLIPは微調整には適さないという従来の結論に挑戦し、最近提案されたCLIPに基づく改善を再考する動機となった。
当社のコードは、 \url{https://github.com/LightDXY/FT-CLIP}で公開します。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs [24.991684983495542]
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
論文 参考訳(メタデータ) (2024-03-22T19:41:26Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - CLIP-KD: An Empirical Study of CLIP Model Distillation [24.52910358842176]
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。
教師と生徒のエンコーダ間の対話的コントラスト学習は、性能向上にも有効である。
論文 参考訳(メタデータ) (2023-07-24T12:24:07Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。