論文の概要: Finetune like you pretrain: Improved finetuning of zero-shot vision
models
- arxiv url: http://arxiv.org/abs/2212.00638v1
- Date: Thu, 1 Dec 2022 16:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:20:51.696817
- Title: Finetune like you pretrain: Improved finetuning of zero-shot vision
models
- Title(参考訳): finetune like you pretrain:ゼロショットビジョンモデルの微調整の改善
- Authors: Sachin Goyal, Ananya Kumar, Sankalp Garg, Zico Kolter, and Aditi
Raghunathan
- Abstract要約: 対照的な事前学習を模倣する自然な簡単なアプローチが、代替の微調整アプローチよりも一貫して優れていることを示す。
提案手法は,7つの分散シフト,6つの転移学習,および3つの数ショット学習ベンチマークのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 22.65471417984267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning image-text models such as CLIP achieves state-of-the-art
accuracies on a variety of benchmarks. However, recent works like WiseFT
(Wortsman et al., 2021) and LP-FT (Kumar et al., 2022) have shown that even
subtle differences in the finetuning process can lead to surprisingly large
differences in the final performance, both for in-distribution (ID) and
out-of-distribution (OOD) data. In this work, we show that a natural and simple
approach of mimicking contrastive pretraining consistently outperforms
alternative finetuning approaches. Specifically, we cast downstream class
labels as text prompts and continue optimizing the contrastive loss between
image embeddings and class-descriptive prompt embeddings (contrastive
finetuning).
Our method consistently outperforms baselines across 7 distribution shifts, 6
transfer learning, and 3 few-shot learning benchmarks. On WILDS-iWILDCam, our
proposed approach FLYP outperforms the top of the leaderboard by $2.3\%$ ID and
$2.7\%$ OOD, giving the highest reported accuracy. Averaged across 7 OOD
datasets (2 WILDS and 5 ImageNet associated shifts), FLYP gives gains of
$4.2\%$ OOD over standard finetuning and outperforms the current state of the
art (LP-FT) by more than $1\%$ both ID and OOD. Similarly, on 3 few-shot
learning benchmarks, our approach gives gains up to $4.6\%$ over standard
finetuning and $4.4\%$ over the state of the art. In total, these benchmarks
establish contrastive finetuning as a simple, intuitive, and state-of-the-art
approach for supervised finetuning of image-text models like CLIP. Code is
available at https://github.com/locuslab/FLYP.
- Abstract(参考訳): CLIPのような微細な画像テキストモデルは、様々なベンチマークで最先端の精度を達成する。
しかし、最近の WiseFT (Wortsman et al., 2021) や LP-FT (Kumar et al., 2022) のような研究は、微調整過程の微妙な違いでさえ、分布内(ID)と分布外(OOD)のデータの両方において、最終的なパフォーマンスに大きな違いをもたらすことを示した。
本研究は,コントラストプリトレーニングを模倣する自然で単純なアプローチが,代替微調整手法を一貫して上回っていることを示す。
具体的には、下流クラスラベルをテキストプロンプトとしてキャストし、画像埋め込みとクラス記述プロンプト埋め込み(コントラストファインタニング)の対照的な損失を最適化し続けます。
提案手法は,7つの分散シフト,6つの転移学習,および3つの数ショット学習ベンチマークのベースラインを一貫して上回る。
WILDS-iWILDCamでは、提案したFLYPがリーダーボードの上位を$2.3\%のIDと$2.7\%のOODで上回り、最も高い精度が報告されている。
7つのOODデータセット(2つのWILDSと5つのImageNet関連シフト)に平均して、FLYPは標準的な微調整よりも4.2\%のOODを得られる。
同様に、3つの数ショットの学習ベンチマークでは、標準的な微調整よりも4.6\%、最先端技術よりも4.4\%まで上昇する。
これらのベンチマークは、CLIPのような画像テキストモデルの教師付き微調整のための、単純で直感的で最先端のアプローチとして対照的な微調整を確立している。
コードはhttps://github.com/locuslab/FLYP.comで入手できる。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Fast Trainable Projection for Robust Fine-Tuning [36.51660287722338]
ロバスト微調整は、競争力のある分散内分散(ID)性能を達成することを目的としている。
プロジェクションベースの微調整は頑健な微調整に成功している。
Fast Trainable Projectionはプロジェクションベースのファインチューニングアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-29T22:52:43Z) - Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T10:02:18Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Context-Aware Robust Fine-Tuning [23.027441849817922]
コントラスト言語-画像事前訓練(CLIP)モデルは、"[CLASS]"に属する画像を分類するゼロショット能力を有する
CLIPモデルの微調整は精度を向上させるが、下流タスクの堅牢性を犠牲にする。
本稿では,この問題を解決するためにコンテキスト対応ロバストファインチューニング(CAR-FT)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:07:41Z) - Fine-Tuning can Distort Pretrained Features and Underperform
Out-of-Distribution [100.01469697743322]
微調整は、事前訓練された特徴が良好で分布シフトが大きい場合、線形探索よりも精度が良くなる。
我々は,このIDとOODの精度のトレードオフが,簡単な設定でも生じることを理論的に示す。
解析の結果,線形探究の容易な2段階戦略は,線形探究と線形探究の両方の利点を併せ持つことが明らかとなった。
論文 参考訳(メタデータ) (2022-02-21T09:03:34Z) - Exploring Wav2vec 2.0 fine-tuning for improved speech emotion
recognition [78.92428622630861]
wav2vec 2.0は、音声感情認識(SER)に使用できる
バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。
V-FTがIEMOCAPデータセットの最先端モデルより優れていることを示す。
P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
論文 参考訳(メタデータ) (2021-10-12T19:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。