論文の概要: Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective
- arxiv url: http://arxiv.org/abs/2405.16747v1
- Date: Mon, 27 May 2024 01:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:25:57.216466
- Title: Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective
- Title(参考訳): NTKの視点からの線形探索と微調整言語モデルの理解
- Authors: Akiyoshi Tomihari, Issei Sato,
- Abstract要約: ニューラル・タンジェント・カーネル(NTK)理論に基づく分類モデルにおけるLP-FTのトレーニングダイナミクスを解析する。
LP中におけるリニアヘッドノルムの顕著な増加は,クロスエントロピー(CE)損失によるトレーニングから生じている。
自然言語処理タスクのトランスフォーマーモデルによる実験により,我々の理論解析が検証され,LP-FTの有効性が実証された。
- 参考スコア(独自算出の注目度): 32.01426831450348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The two-stage fine-tuning (FT) method, linear probing then fine-tuning (LP-FT), consistently outperforms linear probing (LP) and FT alone in terms of accuracy for both in-distribution (ID) and out-of-distribution (OOD) data. This success is largely attributed to the preservation of pre-trained features, achieved through a near-optimal linear head obtained during LP. However, despite the widespread use of large language models, the exploration of complex architectures such as Transformers remains limited. In this paper, we analyze the training dynamics of LP-FT for classification models on the basis of the neural tangent kernel (NTK) theory. Our analysis decomposes the NTK matrix into two components, highlighting the importance of the linear head norm alongside the prediction accuracy at the start of the FT stage. We also observe a significant increase in the linear head norm during LP, stemming from training with the cross-entropy (CE) loss, which effectively minimizes feature changes. Furthermore, we find that this increased norm can adversely affect model calibration, a challenge that can be addressed by temperature scaling. Additionally, we extend our analysis with the NTK to the low-rank adaptation (LoRA) method and validate its effectiveness. Our experiments with a Transformer-based model on natural language processing tasks across multiple benchmarks confirm our theoretical analysis and demonstrate the effectiveness of LP-FT in fine-tuning language models. Code is available at https://github.com/tom4649/lp-ft_ntk.
- Abstract(参考訳): 2段階ファインチューニング(FT)法では、リニアプローブ(LP-FT)は、イン・ディストリビューション(ID)とアウト・オブ・ディストリビューション(OOD)データの両方の精度において、リニアプローブ(LP)とFTを一貫して上回っている。
この成功は主に、LP中に得られたほぼ最適線形ヘッドによって達成された、事前訓練された特徴の保存に起因する。
しかし、大規模な言語モデルが広く使われているにもかかわらず、トランスフォーマーのような複雑なアーキテクチャの探索は依然として限られている。
本稿では,ニューラル・タンジェント・カーネル(NTK)理論に基づく分類モデルにおけるLP-FTのトレーニングダイナミクスを解析する。
我々はNTK行列を2つの成分に分解し、FTステージ開始時の予測精度とともに線形ヘッドノルムの重要性を強調した。
また, LP中における線形頭部ノルムの顕著な増加は, クロスエントロピー(CE)損失によるトレーニングによるものであり, 特徴変化を効果的に最小化する。
さらに, このノルムの増大は, 温度スケーリングによって対処できる課題であるモデル校正に悪影響を及ぼすことが判明した。
さらに、NTKを用いた解析をローランク適応法(LoRA)に拡張し、その有効性を検証する。
複数のベンチマークをまたいだ自然言語処理タスクのトランスフォーマーモデルによる実験により, LP-FTの有効性を検証し, LP-FTの有効性を実証した。
コードはhttps://github.com/tom4649/lp-ft_ntk.comで入手できる。
関連論文リスト
- Scaling Law for Stochastic Gradient Descent in Quadratically Parameterized Linear Regression [5.801904710149222]
機械学習において、スケーリング法則は、モデルとデータサイズをスケールアップすることで、モデルパフォーマンスがどのように改善されるかを記述する。
本稿では,2次パラメータ化モデルを用いた線形回帰のスケーリング法則について検討する。
その結果、正準線形回帰では、特徴学習による一般化と不要な曲線と、パラメトリゼーション法とアルゴリズムに対する情報理論の下界との明確な分離が提供される。
論文 参考訳(メタデータ) (2025-02-13T09:29:04Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Deep Neural Network Based Accelerated Failure Time Models using Rank
Loss [0.0]
加速故障時間(AFT)モデルは、障害時間と一連の共変量の間の対数線関係を仮定する。
ディープニューラルネットワーク(DNN)は過去数十年にわたって注目され、様々な分野で大きな成功を収めてきた。
本稿では,Gehan型損失モデルとサブサンプリング手法を組み合わせることで,AFTモデルにDNNを適用することを提案する。
論文 参考訳(メタデータ) (2022-06-13T08:38:18Z) - Fine-Tuning can Distort Pretrained Features and Underperform
Out-of-Distribution [100.01469697743322]
微調整は、事前訓練された特徴が良好で分布シフトが大きい場合、線形探索よりも精度が良くなる。
我々は,このIDとOODの精度のトレードオフが,簡単な設定でも生じることを理論的に示す。
解析の結果,線形探究の容易な2段階戦略は,線形探究と線形探究の両方の利点を併せ持つことが明らかとなった。
論文 参考訳(メタデータ) (2022-02-21T09:03:34Z) - Merging Two Cultures: Deep and Statistical Learning [3.15863303008255]
深層学習と統計的学習の2つの文化を組み合わせることで、構造化された高次元データに対する洞察が得られる。
モデルの出力層における確率的手法を用いて予測,最適化,不確実性を実現できることを示す。
論文 参考訳(メタデータ) (2021-10-22T02:57:21Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。