論文の概要: The Impact of Initialization on LoRA Finetuning Dynamics
- arxiv url: http://arxiv.org/abs/2406.08447v1
- Date: Wed, 12 Jun 2024 17:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:37:29.040870
- Title: The Impact of Initialization on LoRA Finetuning Dynamics
- Title(参考訳): LoRA微細加工における初期化の影響
- Authors: Soufiane Hayou, Nikhil Ghosh, Bin Yu,
- Abstract要約: 低位適応(LoRA)における初期化の役割について検討する。
平均収率における最初のスキーム(B から 0 への初期化、A からランダム化)は、他のスキームよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 13.074320303580361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the role of initialization in Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021). Essentially, to start from the pretrained model as initialization for finetuning, one can either initialize B to zero and A to random (default initialization in PEFT package), or vice-versa. In both cases, the product BA is equal to zero at initialization, which makes finetuning starts from the pretrained model. These two initialization schemes are seemingly similar. They should in-principle yield the same performance and share the same optimal learning rate. We demonstrate that this is an incorrect intuition and that the first scheme (initializing B to zero and A to random) on average yields better performance compared to the other scheme. Our theoretical analysis shows that the reason behind this might be that the first initialization allows the use of larger learning rates (without causing output instability) compared to the second initialization, resulting in more efficient learning of the first scheme. We validate our results with extensive experiments on LLMs.
- Abstract(参考訳): 本稿では,Hu et al (2021)で導入されたローランク適応(LoRA)の初期化の役割について考察する。
基本的には、微調整の初期化として事前訓練されたモデルから始めるには、B を 0 に、A をランダム(PEFT パッケージのデフォルト初期化)に初期化するか、あるいは逆変換することができる。
どちらの場合も、積 BA は初期化時に 0 に等しいので、事前訓練されたモデルから微調整を開始する。
これら2つの初期化スキームは似ているように見える。
インプリンシプル(in-principle)は同じパフォーマンスを示し、同じ最適な学習率を共有するべきである。
これは誤った直観であり、平均収率における最初のスキーム(B から 0 への初期化と A へのランダム化)が他のスキームよりも優れた性能を示すことを示す。
我々の理論的分析は、第1の初期化が第2の初期化よりも大きな学習率(出力不安定を生じさせることなく)を使用することで、第1のスキームのより効率的な学習が可能になることを示唆している。
LLMに関する広範な実験により,本研究の結果を検証した。
関連論文リスト
- Landscape-Aware Growing: The Power of a Little LAG [49.897766925371485]
成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。
ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:38:57Z) - Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - Using linear initialisation to improve speed of convergence and
fully-trained error in Autoencoders [0.0]
そこで我々はStraddled Matrix Initialiserと呼ばれる新しいウェイト初期化手法を導入する。
階層行列とReLU活性化関数の組み合わせは、ニューラルネットワークをデファクト線形モデルとして初期化する。
全ての実験において、Straddeled Matrix Initialiserは、他のすべての方法よりも明らかに優れています。
論文 参考訳(メタデータ) (2023-11-17T18:43:32Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - InitialGAN: A Language GAN with Completely Random Initialization [7.642043456676739]
GAN(Generative Adversarial Networks)は、悪名高い露出バイアス問題に取り組む可能性がある。
既存の言語 GAN では、REINFORCE や連続緩和といった推定器を使って単語の確率をモデル化している。
本研究では,これらの問題に対処する手法として,ドロップアウトサンプリングと完全正規化LSTMの2つを提案する。
論文 参考訳(メタデータ) (2022-08-04T08:56:04Z) - Prior-Guided Adversarial Initialization for Fast Adversarial Training [84.56377396106447]
本稿では,FAT(Fast Adversarial Training)とSAT(Standard Adversarial Training)の違いについて検討する。
FATの攻撃成功率(AE)は、後期訓練段階で徐々に悪化し、過度に適合する。
本報告では, オーバーフィッティングを回避するために, 事前誘導FGSM初期化手法を提案する。
提案手法は, 破滅的な過度適合を防止し, 最先端のFAT法より優れる。
論文 参考訳(メタデータ) (2022-07-18T18:13:10Z) - Data-driven Weight Initialization with Sylvester Solvers [72.11163104763071]
本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
論文 参考訳(メタデータ) (2021-05-02T07:33:16Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Influence of Initialization on the Performance of Metaheuristic
Optimizers [7.511240139514371]
本稿では、微分進化(DE)、粒子群最適化(PSO)、カッコウ探索(CS)、人工蜂コロニー(ABC)、遺伝的アルゴリズム(GA)の22種類のアルゴリズムを系統的に比較する。
論文 参考訳(メタデータ) (2020-03-08T14:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。