論文の概要: A Kernel-Based View of Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2210.05643v4
- Date: Tue, 6 Jun 2023 09:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:45:01.728668
- Title: A Kernel-Based View of Language Model Fine-Tuning
- Title(参考訳): カーネルによる言語モデルの微調整
- Authors: Sadhika Malladi, Alexander Wettig, Dingli Yu, Danqi Chen, Sanjeev
Arora
- Abstract要約: ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
- 参考スコア(独自算出の注目度): 94.75146965041131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has become standard to solve NLP tasks by fine-tuning pre-trained language
models (LMs), especially in low-data settings. There is minimal theoretical
understanding of empirical success, e.g., why fine-tuning a model with $10^8$
or more parameters on a couple dozen training points does not result in
overfitting. We investigate whether the Neural Tangent Kernel (NTK) - which
originated as a model to study the gradient descent dynamics of infinitely wide
networks with suitable random initialization - describes fine-tuning of
pre-trained LMs. This study was inspired by the decent performance of NTK for
computer vision tasks (Wei et al., 2022). We extend the NTK formalism to Adam
and use Tensor Programs (Yang, 2020) to characterize conditions under which the
NTK lens may describe fine-tuning updates to pre-trained language models.
Extensive experiments on 14 NLP tasks validate our theory and show that
formulating the downstream task as a masked word prediction problem through
prompting often induces kernel-based dynamics during fine-tuning. Finally, we
use this kernel view to propose an explanation for the success of
parameter-efficient subspace-based fine-tuning methods.
- Abstract(参考訳): 訓練済み言語モデル(LM)を微調整することで、特に低データ設定でNLPタスクを解決するのが標準になっている。
例えば、数十のトレーニングポイントで10^8$以上のパラメータを持つモデルの微調整が過度に適合しない理由など、経験的成功に関する最小限の理論的な理解がある。
ランダム初期化に適する無限広帯域ネットワークの勾配勾配ダイナミクスの研究モデルであるニューラル・タンジェント・カーネル(NTK)が,事前学習したLMの微調整について検討する。
この研究はコンピュータビジョンタスク(wei et al., 2022)におけるntkの性能に触発されたものである。
我々は、NTKフォーマリズムをAdamに拡張し、テンソルプログラム(Yang, 2020)を使用して、NTKレンズが事前訓練された言語モデルの微調整を記述できる条件を特徴付ける。
14のNLPタスクに対する大規模な実験により、ダウンストリームタスクをマスク付き単語予測問題として定式化することで、微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
最後に、このカーネルビューを用いてパラメータ効率の高いサブスペースベース微調整法の成功を説明する。
関連論文リスト
- Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Enhancing Deep Neural Network Training Efficiency and Performance through Linear Prediction [0.0]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンや自然言語処理など、さまざまな分野で大きな成功を収めている。
本稿では,DNNの学習効率を最適化する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T03:11:30Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Revisiting k-NN for Fine-tuning Pre-trained Language Models [25.105882538429743]
我々は PLM ベースの分類器を強化するために k-Nearest-Neighbor (kNN) 分類器を再検討する。
我々のアプローチの核心は、予測結果を簡単な例と難しい例の指標として扱うkNN校正トレーニングの実装である。
我々は、微調整、急速調整、ゼロショット、少数ショット、完全教師付き設定に関する広範な実験を行う。
論文 参考訳(メタデータ) (2023-04-18T15:28:47Z) - Human Trajectory Prediction via Neural Social Physics [63.62824628085961]
軌道予測は多くの分野において広く研究され、多くのモデルベースおよびモデルフリーな手法が研究されている。
ニューラル微分方程式モデルに基づく新しい手法を提案する。
我々の新しいモデル(ニューラル社会物理学またはNSP)は、学習可能なパラメータを持つ明示的な物理モデルを使用するディープニューラルネットワークである。
論文 参考訳(メタデータ) (2022-07-21T12:11:18Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。