論文の概要: Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective
- arxiv url: http://arxiv.org/abs/2405.16747v2
- Date: Tue, 22 Oct 2024 11:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:24:39.398797
- Title: Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective
- Title(参考訳): NTKの視点からの線形探索と微調整言語モデルの理解
- Authors: Akiyoshi Tomihari, Issei Sato,
- Abstract要約: 2段階ファインチューニング (FT) 法, 線形探傷 (LP) 法, 次いでファインチューニング (LP-FT) 法は線形探傷法とFT単独法より優れている。
ニューラルネットワークカーネル(NTK)理論に基づく分類タスクにおけるLP-FTのトレーニングダイナミクスを解析する。
本研究は,細調整言語モデルにおけるLP-FTの有効性を示す。
- 参考スコア(独自算出の注目度): 32.01426831450348
- License:
- Abstract: The two-stage fine-tuning (FT) method, linear probing (LP) then fine-tuning (LP-FT), outperforms linear probing and FT alone. This holds true for both in-distribution (ID) and out-of-distribution (OOD) data. One key reason for its success is the preservation of pre-trained features, achieved by obtaining a near-optimal linear head during LP. However, despite the widespread use of large language models, there has been limited exploration of more complex architectures such as Transformers. In this paper, we analyze the training dynamics of LP-FT for classification tasks on the basis of the neural tangent kernel (NTK) theory. Our analysis decomposes the NTK matrix into two components. This decomposition highlights the importance of the linear head norm alongside the prediction accuracy at the start of the FT stage. We also observe a significant increase in the linear head norm during LP, which stems from training with the cross-entropy (CE) loss. This increase in the linear head norm effectively reduces changes in learned features. Furthermore, we find that this increased norm can adversely affect model calibration, which can be corrected using temperature scaling. Additionally, we extend our analysis with the NTK to the low-rank adaptation (LoRA) method and validate its effectiveness. Our experiments using a Transformer-based model on multiple natural language processing datasets confirm our theoretical analysis. Our study demonstrates the effectiveness of LP-FT for fine-tuning language models. Code is available at https://github.com/tom4649/lp-ft_ntk.
- Abstract(参考訳): 2段階ファインチューニング (FT) 法, 線形探傷 (LP) 法, 次いでファインチューニング (LP-FT) 法は線形探傷法とFT単独法より優れている。
これは、in-distribution(ID)データとout-of-distribution(OOD)データの両方に当てはまる。
その成功の鍵となる理由は、LP中にほぼ最適な線形ヘッドを得ることによって達成される、事前訓練された特徴の保存である。
しかし、大きな言語モデルが広く使われているにもかかわらず、トランスフォーマーのようなより複雑なアーキテクチャの探索は限られている。
本稿では,ニューラル・タンジェント・カーネル(NTK)理論に基づく分類タスクにおけるLP-FTのトレーニングダイナミクスを解析する。
我々はNTK行列を2つの成分に分解する。
この分解は、FTステージの開始時の予測精度とともに線形ヘッドノルムの重要性を強調している。
また, LP中のリニアヘッドノルムの顕著な増加は, クロスエントロピー(CE)損失によるトレーニングに由来する。
この線形ヘッドノルムの増加は、学習した特徴の変化を効果的に減少させる。
さらに, モデルキャリブレーションに悪影響を及ぼす可能性があり, 温度スケーリングを用いて補正できることがわかった。
さらに、NTKを用いた解析をローランク適応法(LoRA)に拡張し、その有効性を検証する。
複数の自然言語処理データセットに対するTransformerモデルを用いた実験により,我々の理論的解析が確認された。
本研究は,細調整言語モデルにおけるLP-FTの有効性を示す。
コードはhttps://github.com/tom4649/lp-ft_ntk.comで入手できる。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Deep Neural Network Based Accelerated Failure Time Models using Rank
Loss [0.0]
加速故障時間(AFT)モデルは、障害時間と一連の共変量の間の対数線関係を仮定する。
ディープニューラルネットワーク(DNN)は過去数十年にわたって注目され、様々な分野で大きな成功を収めてきた。
本稿では,Gehan型損失モデルとサブサンプリング手法を組み合わせることで,AFTモデルにDNNを適用することを提案する。
論文 参考訳(メタデータ) (2022-06-13T08:38:18Z) - Fine-Tuning can Distort Pretrained Features and Underperform
Out-of-Distribution [100.01469697743322]
微調整は、事前訓練された特徴が良好で分布シフトが大きい場合、線形探索よりも精度が良くなる。
我々は,このIDとOODの精度のトレードオフが,簡単な設定でも生じることを理論的に示す。
解析の結果,線形探究の容易な2段階戦略は,線形探究と線形探究の両方の利点を併せ持つことが明らかとなった。
論文 参考訳(メタデータ) (2022-02-21T09:03:34Z) - Merging Two Cultures: Deep and Statistical Learning [3.15863303008255]
深層学習と統計的学習の2つの文化を組み合わせることで、構造化された高次元データに対する洞察が得られる。
モデルの出力層における確率的手法を用いて予測,最適化,不確実性を実現できることを示す。
論文 参考訳(メタデータ) (2021-10-22T02:57:21Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。