論文の概要: High-Dimensional Theory of LoRA Fine-Tuning in a Solvable Attention Model
- arxiv url: http://arxiv.org/abs/2606.05899v1
- Date: Thu, 04 Jun 2026 09:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.676342
- Title: High-Dimensional Theory of LoRA Fine-Tuning in a Solvable Attention Model
- Title(参考訳): 可解な注意モデルにおけるLoRA微細調整の高次元理論
- Authors: O. Duranthon, F. Boncoraglio, L. Zdeborová,
- Abstract要約: 本稿では,まず1つの注意層をデータ処理タスクで事前学習し,次に限られたデータに対してランクワンのLoRA更新によって適応する,可解なフレームワークを提案する。
分析の結果,LoRAに対する事前学習の効果は,有効雑音項によって要約され,そこから最適な事前学習手順の処方則が導出されることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We develop a high-dimensional statistical theory of low-rank adaptation (LoRA) in attention models, capturing the interplay between pre-training and fine-tuning. We introduce a solvable framework in which a single-head attention layer is first pre-trained on a data-abundant task and subsequently adapted via a rank-one LoRA update on limited data. In the high-dimensional limit, both stages admit a sharp asymptotic characterization in terms of a finite set of order parameters, yielding explicit predictions for test errors and representation alignment. Our analysis shows that the impact of pre-training on LoRA is summarized by an effective noise term, from which we derive prescriptions for the optimal pre-training procedure. We also demonstrate a regime with a mismatch between the value of the test error and representation quality, and propose an application of our theory to active fine-tuning.
- Abstract(参考訳): 我々は、注意モデルにおけるローランク適応(LoRA)の高次元統計理論を開発し、事前学習と微調整の相互作用を捉える。
本稿では,まず1つの注意層をデータ処理タスクで事前学習し,次に限られたデータに対してランクワンのLoRA更新によって適応する,可解なフレームワークを提案する。
高次元の極限では、どちらの段階も有限個の順序パラメータの観点で鋭い漸近的特徴を認め、テストエラーと表現アライメントの明確な予測を与える。
分析の結果,LoRAに対する事前学習の効果は,有効雑音項によって要約され,そこから最適な事前学習手順の処方則が導出されることがわかった。
また,テストエラーの値と表現品質のミスマッチを列挙し,本理論のアクティブ微調整への応用を提案する。
関連論文リスト
- On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - Convergent Stochastic Training of Attention and Understanding LoRA [40.81245220414135]
トランスフォーマーは機械学習に革命をもたらし、モデルに注目層を配置することは、無数のアプリケーションでますます標準になっている。
大規模モデルではローランク適応(LoRA)を実装することが一般的であり、パラメータ化の因子化を訓練することで驚くほど精度の高いトレードオフを実現する。
軽度正規化の場合、注目層上の経験的回帰損失と浅いニューラルネットワーク上のLoRAは、対応するギブズ測度に対するポアンカレの不等式を誘導する。
論文 参考訳(メタデータ) (2026-05-08T16:22:08Z) - Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - When pre-training hurts LoRA fine-tuning: a dynamical analysis via single-index models [12.383124986345443]
過剰な事前トレーニングは微調整最適化を遅くする可能性がある。
ワンパスSGDで訓練した単一インデックスモデルに対して,ローランク適応(LoRA)ファインタニングのためのこの現象について検討した。
論文 参考訳(メタデータ) (2026-02-02T22:02:52Z) - Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training [11.179110411255708]
トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化するための直接的なフレームワークを提案する。
その結果, 直接的アプローチは従来提案していた2段階の手順よりも優れていることがわかった。
事前学習損失と下流評価結果の完全なセットを公表する。
論文 参考訳(メタデータ) (2025-12-09T18:33:48Z) - ResFlow: Fine-tuning Residual Optical Flow for Event-based High Temporal Resolution Motion Estimation [50.80115710105251]
イベントカメラは、高時間分解能(HTR)モーション推定に重要な可能性を秘めている。
イベントデータを用いてHTR光流を推定するための残差に基づくパラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - LoRA Dropout as a Sparsity Regularizer for Overfitting Control [18.992276878667997]
そこで本研究では,LoRA方式のドロップアウト機構を提案する。
適切な空間性は、経験的リスクと一般化リスクのギャップを狭めるのに役立ちます。
論文 参考訳(メタデータ) (2024-04-15T09:32:12Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [56.48290708901531]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。