論文の概要: Curvature-Guided LoRA: Steering in the pretrained NTK subspace
- arxiv url: http://arxiv.org/abs/2603.29824v1
- Date: Tue, 31 Mar 2026 14:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.730303
- Title: Curvature-Guided LoRA: Steering in the pretrained NTK subspace
- Title(参考訳): Curvature-Guided LoRA: 事前訓練されたNTK部分空間におけるステアリング
- Authors: Frédéric Zheng, Alexandre Proutière,
- Abstract要約: 本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
- 参考スコア(独自算出の注目度): 60.35296431630704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning methods such as LoRA enable efficient adaptation of large pretrained models but often fall short of full fine-tuning performance. Existing approaches focus on aligning parameter updates, which only indirectly control model predictions. In this work, we introduce the prediction alignment problem, aiming to match the predictor obtained via PEFT to that of full fine-tuning at the level of outputs. We show that this objective naturally leads to a curvature-aware, second-order formulation, where optimal low-rank updates correspond to a Newton-like, curvature-whitened gradient. Based on this insight, we propose Curvature-Guided LoRA (CG-LoRA), which selects and scales adaptation directions using local curvature information. Our method is computationally efficient and avoids explicit second-order matrix construction. Preliminary experiments on standard natural language understanding benchmarks demonstrate improved performance and faster convergence compared to existing LoRA variants.
- Abstract(参考訳): LoRAのようなパラメータ効率の良い微調整手法は、大きな事前訓練されたモデルの効率的な適応を可能にするが、しばしば完全な微調整性能に欠ける。
既存のアプローチでは、モデル予測を間接的に制御するパラメータ更新の整合に重点を置いている。
本研究では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
本手法は計算効率が高く,明示的な2階行列構成を避ける。
標準自然言語理解ベンチマークの予備実験では、既存のLoRAの変種と比較して性能が向上し、収束が早くなった。
関連論文リスト
- ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - Mitigating Forgetting in Low Rank Adaptation [17.859306837144732]
本稿では、Low-Rank AdaptationにLaplace近似を適用する重み空間正規化手法であるLaLoRAを提案する。
提案手法は,各パラメータに対するモデルの信頼度を推定し,高曲率方向の更新を制約する。
数学的推論のためのLlamaモデルの微調整によりLaLoRAを評価し,学習鍛造トレードオフの改善を実証した。
論文 参考訳(メタデータ) (2025-12-19T15:54:36Z) - Dual LoRA: Enhancing LoRA with Magnitude and Direction Updates [14.49537642990529]
低ランク適応(LoRA)はパラメータ効率微調整(PEFT)の中でも最も一般的な手法の1つである。
そこで本研究では,従来のLoRAにインダクティブバイアスを組み込むことにより,性能を向上させるために,Dual LoRAと呼ばれる新しい手法を提案する。
トレーニング可能なパラメータの数が同じで,LoRAとその最先端の変種を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-12-03T03:14:09Z) - LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization [16.360816770124874]
LoRA-MGPO は Momentum-Guided Perurbation Optimization (MGPO) を組み込んだフレームワークである。
MGPOは勾配状態から運動量ベクトルを誘導する運動力学を安定化させる。
実験の結果, LoRA-MGPO は LoRA や他のPEFT 法よりも優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-02-20T13:14:41Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。