論文の概要: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
- arxiv url: http://arxiv.org/abs/2409.16718v2
- Date: Tue, 19 Nov 2024 09:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:56.614456
- Title: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
- Title(参考訳): 簡易なパラメータ効率改善による視覚言語モデルファインチューニング
- Authors: Ming Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, Masashi Sugiyama,
- Abstract要約: VLMのパラメータの微調整は、CLIPモデルの微調整が性能を低下させるため、事前訓練された知識を損なうと考えられている。
ClipFitはCLIPを微調整する手法で、余分なパラメータのオーバーヘッドを発生させることなく提案する。
ClipFitが0ショットCLIPの性能を平均調和平均精度7.27%向上できることを実証した。
- 参考スコア(独自算出の注目度): 46.25272949924458
- License:
- Abstract: Recent advances in fine-tuning Vision-Language Models (VLMs) have witnessed the success of prompt tuning and adapter tuning, while the classic model fine-tuning on inherent parameters seems to be overlooked. It is believed that fine-tuning the parameters of VLMs with few-shot samples corrupts the pre-trained knowledge since fine-tuning the CLIP model even degrades performance. In this paper, we revisit this viewpoint, and propose a new perspective: fine-tuning the specific parameters instead of all will uncover the power of classic model fine-tuning on VLMs. Through our meticulous study, we propose ClipFit, a simple yet effective method to fine-tune CLIP without introducing any overhead of extra parameters. We demonstrate that by only fine-tuning the specific bias terms and normalization layers, ClipFit can improve the performance of zero-shot CLIP by 7.27\% average harmonic mean accuracy. Lastly, to understand how fine-tuning in CLIPFit affects the pre-trained models, we conducted extensive experimental analyses w.r.t. changes in internal parameters and representations. We found that low-level text bias layers and the first layer normalization layer change much more than other layers. The code is available at \url{https://github.com/minglllli/CLIPFit}.
- Abstract(参考訳): 微調整型ビジョンランゲージモデル(VLM)の最近の進歩は、迅速なチューニングとアダプタチューニングの成功を目撃している一方、古典的なモデル固有のパラメータの微調整は見落としているように思われる。
サンプル数枚でVLMのパラメータを微調整することは、CLIPモデルの微調整が性能を低下させるため、事前訓練された知識を損なうと考えられている。
本稿では、この視点を再考し、新しい視点として、VLMにおける古典的モデル微調整のパワーを明らかにする。
ClipFitはCLIPを微調整する簡単な方法であり,パラメータの余分なオーバーヘッドを伴わない。
特定のバイアス項と正規化層を微調整するだけで、ClipFitはゼロショットCLIPの性能を平均調和平均精度7.27\%向上させることができる。
最後に、CLIPFitの微調整が事前訓練されたモデルにどのように影響するかを理解するために、内部パラメータや表現の変化を広範囲にわたる実験的に分析した。
その結果,低レベルテキストバイアス層と第1層正規化層は,他の層よりもはるかに大きく変化することがわかった。
コードは \url{https://github.com/minglli/CLIPFit} で公開されている。
関連論文リスト
- Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。
おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - An Empirical Study on JIT Defect Prediction Based on BERT-style Model [5.098350174933033]
本研究では,細粒化プロセスの設定がJIT欠陥予測のためのBERT型事前学習モデルに及ぼす影響について検討する。
以上の結果から,BERTモデルにおける第1エンコーダ層の役割が明らかとなった。
これらの知見を組み合わせて,LoRAに基づくコスト効率の高い微調整手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T09:41:55Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - PALT: Parameter-Lite Transfer of Language Models for Knowledge Graph
Completion [108.8941541255567]
本稿では,知識グラフ(KG)完成のための事前学習言語モデル(LM)のパラメータ・ライト変換学習手法を提案する。
全てのLMパラメータを微調整する代わりに、元のLMパラメータを固定しながら、いくつかの新しいパラメータを調整します。
本研究は,マイクロチューニングよりもはるかに少ないパラメータをチューニングすることにより,ほとんどのタスクに非自明に伝達し,従来の最先端手法と競合することを示す。
論文 参考訳(メタデータ) (2022-10-25T02:22:29Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。