論文の概要: FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2310.15105v4
- Date: Fri, 17 Nov 2023 07:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:21:06.625116
- Title: FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning
- Title(参考訳): FD-Align:Few-Shot Learningにおける微調整事前学習モデルの特徴識別アライメント
- Authors: Kun Song, Huimin Ma, Bochao Zou, Huishuai Zhang, Weiran Huang
- Abstract要約: 本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 21.693779973263172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the limited availability of data, existing few-shot learning methods
trained from scratch fail to achieve satisfactory performance. In contrast,
large-scale pre-trained models such as CLIP demonstrate remarkable few-shot and
zero-shot capabilities. To enhance the performance of pre-trained models for
downstream tasks, fine-tuning the model on downstream data is frequently
necessary. However, fine-tuning the pre-trained model leads to a decrease in
its generalizability in the presence of distribution shift, while the limited
number of samples in few-shot learning makes the model highly susceptible to
overfitting. Consequently, existing methods for fine-tuning few-shot learning
primarily focus on fine-tuning the model's classification head or introducing
additional structure. In this paper, we introduce a fine-tuning approach termed
Feature Discrimination Alignment (FD-Align). Our method aims to bolster the
model's generalizability by preserving the consistency of spurious features
across the fine-tuning process. Extensive experimental results validate the
efficacy of our approach for both ID and OOD tasks. Once fine-tuned, the model
can seamlessly integrate with existing methods, leading to performance
improvements. Our code can be found in https://github.com/skingorz/FD-Align.
- Abstract(参考訳): データの可用性が限られているため、スクラッチからトレーニングされた既存の少数ショット学習方法は、十分なパフォーマンスを達成できていない。
対照的に、CLIPのような大規模で事前訓練されたモデルでは、目覚ましい少数ショットとゼロショットの機能を示している。
下流タスクのための事前学習モデルの性能を高めるためには、下流データ上でモデルを微調整する必要があることが多い。
しかしながら、事前学習されたモデルの微調整は分布シフトの存在下での一般化可能性の低下を招き、一方、少数ショット学習ではサンプル数が限られているため、過度に適合しやすいモデルとなる。
その結果,既存の微調整学習手法は主にモデルの分類ヘッドの微調整や追加構造の導入に重点を置いている。
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は, 微調整プロセスにおける突発的特徴の一貫性を保ち, モデルの一般化可能性を高めることを目的とする。
広範囲な実験により, ID および OOD タスクに対するアプローチの有効性が検証された。
微調整をすれば、モデルが既存のメソッドとシームレスに統合できるため、パフォーマンスが向上する。
私たちのコードはhttps://github.com/skingorz/FD-Align.orgにある。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Guiding The Last Layer in Federated Learning with Pre-Trained Models [18.382057374270143]
フェデレートラーニング(FL)は、データを共有することなく、多数の参加者にまたがってモデルをトレーニングできる新興パラダイムである。
NCM(Nearest Class Means)を用いた分類ヘッドの適合は,既存の提案よりも正確に,桁違いに効率的に行えることを示す。
論文 参考訳(メタデータ) (2023-06-06T18:02:02Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Few-Shot Lifelong Learning [35.05196800623617]
Few-Shot Lifelong Learningにより、深層学習モデルが短距離/連続学習を実行できます。
提案手法では,モデルからごく少数のパラメータを選択して,モデル全体をトレーニングする代わりに,新しいクラスのセットをトレーニングする。
提案手法は, miniImageNet, CIFAR-100, CUB-200データセットにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-01T13:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。