論文の概要: Long-Tail Learning with Foundation Model: Heavy Fine-Tuning Hurts
- arxiv url: http://arxiv.org/abs/2309.10019v3
- Date: Sat, 1 Jun 2024 09:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 21:00:32.638281
- Title: Long-Tail Learning with Foundation Model: Heavy Fine-Tuning Hurts
- Title(参考訳): ファウンデーションモデルによる長期学習 - ヘビーファインチューニングハート
- Authors: Jiang-Xin Shi, Tong Wei, Zhi Zhou, Jie-Jing Shao, Xin-Yan Han, Yu-Feng Li,
- Abstract要約: 本稿では,重度微調整がテールクラスの性能劣化の原因となる可能性を明らかにする。
我々は,高速な予測とコンパクトなモデルを実現することを目的として,低複雑さかつ高精度なロングテール学習アルゴリズムLIFTを開発した。
- 参考スコア(独自算出の注目度): 42.693469918949006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fine-tuning paradigm in addressing long-tail learning tasks has sparked significant interest since the emergence of foundation models. Nonetheless, how fine-tuning impacts performance in long-tail learning was not explicitly quantified. In this paper, we disclose that heavy fine-tuning may even lead to non-negligible performance deterioration on tail classes, and lightweight fine-tuning is more effective. The reason is attributed to inconsistent class conditions caused by heavy fine-tuning. With the observation above, we develop a low-complexity and accurate long-tail learning algorithms LIFT with the goal of facilitating fast prediction and compact models by adaptive lightweight fine-tuning. Experiments clearly verify that both the training time and the learned parameters are significantly reduced with more accurate predictive performance compared with state-of-the-art approaches. The implementation code is available at https://github.com/shijxcs/LIFT.
- Abstract(参考訳): ロングテール学習タスクに対処する微調整パラダイムは、基礎モデルの出現以来、大きな関心を集めている。
それでも、ロングテール学習における微調整がパフォーマンスに与える影響は、明確に定量化されなかった。
本稿では,重度微調整がテールクラスの非無視性能劣化を引き起こす可能性があり,軽量微調整の方が有効であることを示す。
原因は、重度の微調整によって引き起こされる不整合クラス条件による。
以上の結果から,適応型軽量微調整による高速予測とコンパクトモデルの実現を目的とした,低複雑さかつ高精度な長尾学習アルゴリズムLIFTを開発した。
実験により、トレーニング時間と学習パラメータの両方が、最先端のアプローチと比較して、より正確な予測性能で大幅に削減されることを確認した。
実装コードはhttps://github.com/shijxcs/LIFT.comで公開されている。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Orthogonal Uncertainty Representation of Data Manifold for Robust
Long-Tailed Learning [52.021899899683675]
長い尾の分布を持つシナリオでは、尾のサンプルが不足しているため、モデルが尾のクラスを識別する能力は制限される。
モデルロバストネスの長期的現象を改善するために,特徴埋め込みの直交不確実性表現(OUR)とエンドツーエンドのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-16T05:50:34Z) - Deep learning for ECoG brain-computer interface: end-to-end vs.
hand-crafted features [4.7773230870500605]
脳信号は時間的データであり、低信号対雑音比、不確実なラベル、非定常データである。
これらの要因はトレーニングプロセスに影響を与え、モデルのパフォーマンス改善を遅くする可能性がある。
本稿では,BCIモータ画像復号における生のECoG信号と時間周波数特徴を用いたモデルを比較した。
論文 参考訳(メタデータ) (2022-10-05T20:18:30Z) - Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced
Data [11.66734752179563]
長い尾の分散データの分類は難しい問題である。
トレーニング済みのモデルを下流タスクに転送する場合、特に微調整では、テールクラスでの学習は困難である。
本稿では,2段階のファインチューニングを提案する。まず,事前訓練されたモデルの最終層をクラスバランスの再重み付け損失で微調整し,次に標準のファインチューニングを実行する。
論文 参考訳(メタデータ) (2022-07-22T03:39:51Z) - Towards Inadequately Pre-trained Models in Transfer Learning [37.66278189011681]
より優れたImageNet事前訓練モデルでは、下流タスクへの転送性が向上することが示されている。
本稿では,同じ事前学習過程において,十分に訓練されていない中新世のモデルが,完全に訓練されたモデルより優れていることを示す。
我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習する傾向があることを示唆している。
論文 参考訳(メタデータ) (2022-03-09T12:15:55Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。