論文の概要: When pre-training hurts LoRA fine-tuning: a dynamical analysis via single-index models
- arxiv url: http://arxiv.org/abs/2602.02855v1
- Date: Mon, 02 Feb 2026 22:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.10904
- Title: When pre-training hurts LoRA fine-tuning: a dynamical analysis via single-index models
- Title(参考訳): プレトレーニングがLoRAの微調整を損なう場合--単一インデックスモデルによる動的解析
- Authors: Gibbs Nwemadji, Bruno Loureiro, Jean Barbier,
- Abstract要約: 過剰な事前トレーニングは微調整最適化を遅くする可能性がある。
ワンパスSGDで訓練した単一インデックスモデルに対して,ローランク適応(LoRA)ファインタニングのためのこの現象について検討した。
- 参考スコア(独自算出の注目度): 12.383124986345443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training on a source task is usually expected to facilitate fine-tuning on similar downstream problems. In this work, we mathematically show that this naive intuition is not always true: excessive pre-training can computationally slow down fine-tuning optimization. We study this phenomenon for low-rank adaptation (LoRA) fine-tuning on single-index models trained under one-pass SGD. Leveraging a summary statistics description of the fine-tuning dynamics, we precisely characterize how the convergence rate depends on the initial fine-tuning alignment and the degree of non-linearity of the target task. The key take away is that even when the pre-training and down- stream tasks are well aligned, strong pre-training can induce a prolonged search phase and hinder convergence. Our theory thus provides a unified picture of how pre-training strength and task difficulty jointly shape the dynamics and limitations of LoRA fine-tuning in a nontrivial tractable model.
- Abstract(参考訳): ソースタスクの事前トレーニングは、通常、同様の下流問題の微調整を容易にすることが期待される。
過剰な事前学習は微調整最適化を計算的に遅くすることができる。
ワンパスSGDで訓練した単一インデックスモデルに対して,ローランク適応(LoRA)ファインタニングのためのこの現象について検討した。
微調整力学の要約統計を応用し、収束速度が初期微調整アライメントと目標タスクの非線形性の度合いにどのように依存するかを正確に特徴づける。
重要なのは、事前学習とダウンストリームタスクが適切に整合している場合でも、強力な事前学習は長い検索フェーズを誘導し、収束を妨げることだ。
そこで本理論は,LoRAファインチューニングのダイナミックスと制約を,非自明な抽出可能なモデルで共同で生成する,事前学習の強度とタスクの難しさを統一的に表現する。
関連論文リスト
- The Coverage Principle: How Pre-Training Enables Post-Training [70.25788947586297]
予備学習が最終モデルの成功をどう形作るかを検討する。
下流の性能予測におけるカバレッジのパワーを説明するメカニズムを明らかにする。
論文 参考訳(メタデータ) (2025-10-16T17:53:50Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Pay Attention to Small Weights [26.613296190219103]
NanoADAMは、微調整中に小さなマグニチュードのみを動的に更新する。
これは、事前訓練中に学んだ重要な特徴をエンコードする可能性が高い、大きなマグニチュードの重量を保存する。
論文 参考訳(メタデータ) (2025-06-26T15:22:55Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。