論文の概要: Fine-Tuning is Fine, if Calibrated
- arxiv url: http://arxiv.org/abs/2409.16223v3
- Date: Sun, 13 Oct 2024 23:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:52:35.654098
- Title: Fine-Tuning is Fine, if Calibrated
- Title(参考訳): キャリブレーションすれば、ファインチューニングは素晴らしい
- Authors: Zheda Mai, Arpita Chowdhury, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao,
- Abstract要約: 事前訓練されたモデルの微調整は、以前に学習した他のクラスにおいて、モデルの精度を劇的に低下させることが示されている。
本論文は,「微調整モデルで損傷を受けたものは何か?」という根本的な疑問に答えることを目的として,この問題を体系的に識別する。
微調整されたモデルは、他のクラス間の関係を忘れたり、これらのクラスを認識するために機能を劣化させたりしない。
- 参考スコア(独自算出の注目度): 33.42198023647517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is arguably the most straightforward way to tailor a pre-trained model (e.g., a foundation model) to downstream applications, but it also comes with the risk of losing valuable knowledge the model had learned in pre-training. For example, fine-tuning a pre-trained classifier capable of recognizing a large number of classes to master a subset of classes at hand is shown to drastically degrade the model's accuracy in the other classes it had previously learned. As such, it is hard to further use the fine-tuned model when it encounters classes beyond the fine-tuning data. In this paper, we systematically dissect the issue, aiming to answer the fundamental question, "What has been damaged in the fine-tuned model?" To our surprise, we find that the fine-tuned model neither forgets the relationship among the other classes nor degrades the features to recognize these classes. Instead, the fine-tuned model often produces more discriminative features for these other classes, even if they were missing during fine-tuning! {What really hurts the accuracy is the discrepant logit scales between the fine-tuning classes and the other classes}, implying that a simple post-processing calibration would bring back the pre-trained model's capability and at the same time unveil the feature improvement over all classes. We conduct an extensive empirical study to demonstrate the robustness of our findings and provide preliminary explanations underlying them, suggesting new directions for future theoretical analysis. Our code is available at https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated.
- Abstract(参考訳): ファインチューニングは、トレーニング済みのモデル(例えば、ファンデーションモデル)を下流のアプリケーションにカスタマイズする最も簡単な方法であることは間違いないが、トレーニング前のモデルで学んだ貴重な知識を失うリスクも伴う。
例えば、手前のクラスのサブセットをマスターするために多数のクラスを認識できる事前訓練された分類器を微調整すると、以前に学んだ他のクラスでモデルの精度が劇的に低下する。
そのため、微調整されたデータを超えたクラスに遭遇した場合、微調整されたモデルをさらに利用するのは難しい。
本稿では,「微調整モデルで損傷を受けたものは何か?」という根本的な疑問に答えることを目的として,系統的に問題を解き明かす。
驚いたことに、微調整されたモデルは、他のクラス間の関係を忘れたり、これらのクラスを認識するために機能を劣化させたりしない。
代わりに、微調整されたモデルは、たとえ微調整中に欠落していたとしても、しばしばこれらの他のクラスに対してより差別的な特徴を生み出す。
これは、単純な後処理のキャリブレーションによって、トレーニング済みのモデルの能力が取り戻され、同時に、すべてのクラスで機能改善が公開されることを意味する。
本研究は,本研究のロバスト性を実証するための広範な実証的研究を行い,その基礎となる予備的な説明を提供し,今後の理論的分析のための新たな方向性を提案する。
私たちのコードはhttps://github.com/OSU-MLB/Fine-Tuning-Is-If-Calibratedで利用可能です。
関連論文リスト
- Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Are Deep Sequence Classifiers Good at Non-Trivial Generalization? [4.941630596191806]
バイナリシーケンス分類問題について検討し、異なる観点からモデルキャリブレーションを考察する。
対象クラスが稀な問題であるスパースシーケンス分類に注目し,3つのディープラーニングシーケンス分類モデルを比較した。
このバイナリ設定では、ディープラーニングモデルが、非自明な方法で基礎となるクラス分布を学習することができることが示唆されている。
論文 参考訳(メタデータ) (2022-10-24T10:01:06Z) - Attaining Class-level Forgetting in Pretrained Model using Few Samples [18.251805180282346]
将来的には、プライバシーや倫理上の懸念から、いくつかのクラスが制限される可能性がある。
本稿では,モデルが残すクラスに対する予測能力に影響を与えることなく,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T15:36:01Z) - Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced
Data [11.66734752179563]
長い尾の分散データの分類は難しい問題である。
トレーニング済みのモデルを下流タスクに転送する場合、特に微調整では、テールクラスでの学習は困難である。
本稿では,2段階のファインチューニングを提案する。まず,事前訓練されたモデルの最終層をクラスバランスの再重み付け損失で微調整し,次に標準のファインチューニングを実行する。
論文 参考訳(メタデータ) (2022-07-22T03:39:51Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。