論文の概要: The Impact of Initialization on LoRA Finetuning Dynamics
- arxiv url: http://arxiv.org/abs/2406.08447v1
- Date: Wed, 12 Jun 2024 17:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:37:29.040870
- Title: The Impact of Initialization on LoRA Finetuning Dynamics
- Title(参考訳): LoRA微細加工における初期化の影響
- Authors: Soufiane Hayou, Nikhil Ghosh, Bin Yu,
- Abstract要約: 低位適応(LoRA)における初期化の役割について検討する。
平均収率における最初のスキーム(B から 0 への初期化、A からランダム化)は、他のスキームよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 13.074320303580361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the role of initialization in Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021). Essentially, to start from the pretrained model as initialization for finetuning, one can either initialize B to zero and A to random (default initialization in PEFT package), or vice-versa. In both cases, the product BA is equal to zero at initialization, which makes finetuning starts from the pretrained model. These two initialization schemes are seemingly similar. They should in-principle yield the same performance and share the same optimal learning rate. We demonstrate that this is an incorrect intuition and that the first scheme (initializing B to zero and A to random) on average yields better performance compared to the other scheme. Our theoretical analysis shows that the reason behind this might be that the first initialization allows the use of larger learning rates (without causing output instability) compared to the second initialization, resulting in more efficient learning of the first scheme. We validate our results with extensive experiments on LLMs.
- Abstract(参考訳): 本稿では,Hu et al (2021)で導入されたローランク適応(LoRA)の初期化の役割について考察する。
基本的には、微調整の初期化として事前訓練されたモデルから始めるには、B を 0 に、A をランダム(PEFT パッケージのデフォルト初期化)に初期化するか、あるいは逆変換することができる。
どちらの場合も、積 BA は初期化時に 0 に等しいので、事前訓練されたモデルから微調整を開始する。
これら2つの初期化スキームは似ているように見える。
インプリンシプル(in-principle)は同じパフォーマンスを示し、同じ最適な学習率を共有するべきである。
これは誤った直観であり、平均収率における最初のスキーム(B から 0 への初期化と A へのランダム化)が他のスキームよりも優れた性能を示すことを示す。
我々の理論的分析は、第1の初期化が第2の初期化よりも大きな学習率(出力不安定を生じさせることなく)を使用することで、第1のスキームのより効率的な学習が可能になることを示唆している。
LLMに関する広範な実験により,本研究の結果を検証した。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - HRP: High-Rank Preheating for Superior LoRA Initialization [58.3319586613105]
微調整低域適応(LoRA)のための高域予熱法(HRP)の提案
HRPはLoRAの様々なモデルやタスクにおける一般化の有効性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-11T17:59:35Z) - One-step full gradient suffices for low-rank fine-tuning, provably and efficiently [10.843508549704959]
本稿では,Low-Rank Adaption (LoRA) の性能向上を理論的に検討する。
提案手法は,emphLoRA-Oneアルゴリズム(emphワンステップ勾配とプレコンディショニングを用いた)に導かれる。
論文 参考訳(メタデータ) (2025-02-03T10:50:03Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - On the Crucial Role of Initialization for Matrix Factorization [40.834791383134416]
この研究は古典的低ランク行列分解問題を再考し、整合率の形成における初期化の重要な役割を明らかにする。
我々はNystrom NyGDを対称非対称行列分解タスクに導入し、ローランクアダプタ(LoRA)に拡張する。
提案手法は,大規模言語および拡散モデルにおいて,1Bから7Bパラメータに至るまで,様々なダウンストリームおよびモデルスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-24T17:58:21Z) - Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。
提案手法は, 既存手法よりも高スパース性設定で優れる。
ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-27T03:17:52Z) - Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - Prior-Guided Adversarial Initialization for Fast Adversarial Training [84.56377396106447]
本稿では,FAT(Fast Adversarial Training)とSAT(Standard Adversarial Training)の違いについて検討する。
FATの攻撃成功率(AE)は、後期訓練段階で徐々に悪化し、過度に適合する。
本報告では, オーバーフィッティングを回避するために, 事前誘導FGSM初期化手法を提案する。
提案手法は, 破滅的な過度適合を防止し, 最先端のFAT法より優れる。
論文 参考訳(メタデータ) (2022-07-18T18:13:10Z) - Data-driven Weight Initialization with Sylvester Solvers [72.11163104763071]
本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
論文 参考訳(メタデータ) (2021-05-02T07:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。