論文の概要: Linearization Explains Fine-Tuning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.08239v1
- Date: Mon, 09 Feb 2026 03:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.052072
- Title: Linearization Explains Fine-Tuning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるファインチューニングの線形化
- Authors: Zahra Rahimi Afzal, Tara Esmaeilbeig, Mojtaba Soltanalian, Mesrob I. Ohannessian,
- Abstract要約: 我々は、微調整力学が正定ニューラルネットワークカーネル(NTK)を用いた学習と等価になることを示す。
線形化が良いモデルである場合には,NTKの固有値スペクトルとモデル適応性能との間に強い相関関係が認められた。
- 参考スコア(独自算出の注目度): 13.157568306905885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) is a popular class of techniques that strive to adapt large models in a scalable and resource-efficient manner. Yet, the mechanisms underlying their training performance and generalization remain underexplored. In this paper, we provide several insights into such fine-tuning through the lens of linearization. Fine-tuned models are often implicitly encouraged to remain close to the pretrained model. By making this explicit, using an Euclidean distance inductive bias in parameter space, we show that fine-tuning dynamics become equivalent to learning with the positive-definite neural tangent kernel (NTK). We specifically analyze how close the fully linear and the linearized fine-tuning optimizations are, based on the strength of the regularization. This allows us to be pragmatic about how good a model linearization is when fine-tuning large language models (LLMs). When linearization is a good model, our findings reveal a strong correlation between the eigenvalue spectrum of the NTK and the performance of model adaptation. Motivated by this, we give spectral perturbation bounds on the NTK induced by the choice of layers selected for fine-tuning. We empirically validate our theory on Low Rank Adaptation (LoRA) on LLMs. These insights not only characterize fine-tuning but also have the potential to enhance PEFT techniques, paving the way to better informed and more nimble adaptation in LLMs.
- Abstract(参考訳): パラメータ効率のよいファインチューニング(PEFT)は、大規模モデルをスケーラブルでリソース効率のよい方法で適応させようとする一般的な手法のクラスである。
しかし、そのトレーニング性能と一般化の基礎となるメカニズムはいまだに解明されていない。
本稿では,線形化のレンズによる微調整について,いくつかの知見を提供する。
微調整されたモデルは、しばしば暗黙的に事前訓練されたモデルに近づき続けるよう奨励される。
これを明確にすることにより、パラメータ空間におけるユークリッド距離誘導バイアスを用いて、微細チューニングダイナミクスが正定値ニューラルネットワークカーネル(NTK)による学習と等価になることを示す。
具体的には、正則化の強さに基づいて、完全線形および線形化された微調整最適化がいかに近いかを分析する。
これにより、大規模言語モデル(LLM)を微調整するときに、モデル線形化がいかに優れているか、現実的になる。
線形化が良いモデルである場合には,NTKの固有値スペクトルとモデル適応性能との間に強い相関関係が認められた。
そこで我々は, 微調整に選択した層の選択により, NTKのスペクトル摂動境界を与える。
LLMにおけるLow Rank Adaptation(LoRA)の理論を実証的に検証する。
これらの知見は、微調整を特徴付けるだけでなく、PEFT技術を強化し、LLMのより優れた情報とより細かな適応を実現する可能性も持っている。
関連論文リスト
- ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - $α$-LoRA: Effective Fine-Tuning via Base Model Rescaling [41.58663029548425]
そこで我々は, 微調整モデルの能力一般化を促進するために, 伝達学習のための新しいクラスreパラメタライゼーション手法を提案する。
ランダム行列理論のツールを用いた高次元二値分類設定において,本手法の有効性を確立し,より現実的な実験により理論的知見を検証した。
論文 参考訳(メタデータ) (2025-10-24T11:19:33Z) - NIMO: a Nonlinear Interpretable MOdel [5.128077543874915]
NIMOは、固有の解釈可能性とニューラルネットワークの表現力を組み合わせたフレームワークである。
我々のモデルは優れた予測性能を維持しつつ、忠実で知性に富む特徴効果を提供できることを示す。
論文 参考訳(メタデータ) (2025-06-05T14:02:55Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective [32.01426831450348]
2段階ファインチューニング (FT) 法, 線形探傷 (LP) 法, 次いでファインチューニング (LP-FT) 法は線形探傷法とFT単独法より優れている。
ニューラルネットワークカーネル(NTK)理論に基づく分類タスクにおけるLP-FTのトレーニングダイナミクスを解析する。
本研究は,細調整言語モデルにおけるLP-FTの有効性を示す。
論文 参考訳(メタデータ) (2024-05-27T01:31:40Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。