論文の概要: SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning
- arxiv url: http://arxiv.org/abs/2407.03036v1
- Date: Wed, 3 Jul 2024 11:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:26:01.209184
- Title: SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning
- Title(参考訳): SAFT:ファインチューニングにおけるアウト・オブ・ディストリビューションの一般化を目指して
- Authors: Bac Nguyen, Stefan Uhlich, Fabien Cardinaux, Lukas Mauch, Marzieh Edraki, Aaron Courville,
- Abstract要約: Sparse Adaptation for Fine-Tuning (SAFT) を導入する。これは、ファインチューニングが事前訓練されたモデルにおける一般的な知識を忘れないようにする手法である。
モデルパラメータのわずか0.1%で、SAFTはCLIPの性能を大幅に改善できる。
ImageNetのほんの数ショットの学習ベンチマークで、SAFTはOOD設定における従来の微調整法よりも平均5.15%向上した。
- 参考スコア(独自算出の注目度): 8.566687323389264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handling distribution shifts from training data, known as out-of-distribution (OOD) generalization, poses a significant challenge in the field of machine learning. While a pre-trained vision-language model like CLIP has demonstrated remarkable zero-shot performance, further adaptation of the model to downstream tasks leads to undesirable degradation for OOD data. In this work, we introduce Sparse Adaptation for Fine-Tuning (SAFT), a method that prevents fine-tuning from forgetting the general knowledge in the pre-trained model. SAFT only updates a small subset of important parameters whose gradient magnitude is large, while keeping the other parameters frozen. SAFT is straightforward to implement and conceptually simple. Extensive experiments show that with only 0.1% of the model parameters, SAFT can significantly improve the performance of CLIP. It consistently outperforms baseline methods across several benchmarks. On the few-shot learning benchmark of ImageNet and its variants, SAFT gives a gain of 5.15% on average over the conventional fine-tuning method in OOD settings.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)一般化として知られるトレーニングデータからの分散シフトを扱うことは、機械学習の分野において大きな課題となる。
CLIPのような事前訓練された視覚言語モデルは、顕著なゼロショット性能を示したが、下流タスクへのモデルのさらなる適応は、OODデータの望ましくない劣化をもたらす。
本研究では,事前学習モデルにおいて,ファインチューニングが一般的な知識を忘れないようにするための手法であるスパース適応 for Fine-Tuning(SAFT)を提案する。
SAFTは、勾配が大きい重要なパラメータの小さなサブセットだけを更新するが、他のパラメータは凍結する。
SAFTは簡単に実装でき、概念的にはシンプルである。
大規模な実験により、モデルパラメータのわずか0.1%で、SAFTはCLIPの性能を大幅に改善できることが示された。
複数のベンチマークで一貫してベースラインメソッドを上回ります。
ImageNetとその変種に関する数ショットの学習ベンチマークでは、SAFTは従来のOOD設定の微調整法よりも平均5.15%向上している。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Towards Inadequately Pre-trained Models in Transfer Learning [37.66278189011681]
より優れたImageNet事前訓練モデルでは、下流タスクへの転送性が向上することが示されている。
本稿では,同じ事前学習過程において,十分に訓練されていない中新世のモデルが,完全に訓練されたモデルより優れていることを示す。
我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習する傾向があることを示唆している。
論文 参考訳(メタデータ) (2022-03-09T12:15:55Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。