論文の概要: SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2409.00055v4
- Date: Wed, 02 Oct 2024 19:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:52:46.704945
- Title: SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models
- Title(参考訳): SORSA:大言語モデルの特異値と正規化正規化特異ベクトル適応
- Authors: Yang Cao,
- Abstract要約: SORSA(Singular Values and Orthonormalized Singular Vectors Adaptation)は, PEFT法の一種である。
本稿では,パラメータの変動を特異値分解(SVD)によって解析し,SORSAのSVD面における変化を最小限に抑える上での優位性を議論し,分析する手法を提案する。
我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。
- 参考スコア(独自算出の注目度): 5.573502364188814
- License:
- Abstract: The rapid advancement in large language models (LLMs) comes with a significant increase in their parameter size, presenting challenges for adaptation and fine-tuning. Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt LLMs for downstream tasks efficiently. In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. We introduce a method to analyze the variation of the parameters by performing singular value decomposition (SVD) and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \text{diag}(S_p) V^\top_p$, and frozen residual weights $W_r = U_r \text{diag}(S_r) V^\top_r$. These parts are initialized by performing SVD on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and allows the optimization to be more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. After all, SORSA shows a faster convergence than PiSSA and LoRA in our experiments. On the GSM-8K benchmark, Llama 2 7B adapted using SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), Full FT (49.05%), and PiSSA (53.07%). On the MATH benchmark, SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), Full FT (7.22%), and PiSSA (7.44%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance. The code is available at https://github.com/Gunale0926/SORSA.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、パラメータサイズが大幅に増加し、適応と微調整の課題が提示される。
パラメータ効率のよい微調整(PEFT)法は、下流タスクにLLMを効率的に適応するために広く用いられている。
本稿では,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。
本稿では,パラメータの変動を特異値分解(SVD)によって解析し,SORSAのSVD面における変化を最小限に抑える上での優位性を議論し,分析する手法を提案する。
各SORSAアダプタは、トレーニング可能な主特異量 $W_p = U_p \text{diag}(S_p) V^\top_p$ と、凍結された残量 $W_r = U_r \text{diag}(S_r) V^\top_r$ の2つの主要部分から構成される。
これらの部分は、事前訓練された重量に対してSVDを実行することで初期化される。
さらに,正規正規化正規化器を実装・解析することで,条件数$W_p$を削減し,最適化をより効率的にすることができることを示した。
SORSAアダプタは推論中にマージすることができ、推論遅延を排除できる。
結局のところ、SORSAは、我々の実験において、PiSSAやLoRAよりも高速な収束を示す。
GSM-8Kベンチマークでは、SORSAを使用したLlama 2 7Bが56.03%の精度でLoRA(42.30%)、全FT(49.05%)、PiSSA(53.07%)を上回った。
MATHベンチマークでは、SORSAは10.36%の精度でLoRA(5.50%)、全FT(7.22%)、PiSSA(7.44%)を上回った。
我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。
コードはhttps://github.com/Gunale0926/SORSAで公開されている。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Adaptive Stochastic Gradient Descent for Fast and
Communication-Efficient Distributed Learning [33.590006101071765]
マスタが分散降下(SGD)アルゴリズムを$n$ワーカー上で実行したい場合について検討する。
本研究では,分散SGDの適応バージョンが非適応実装と比較して少ない時間で低い誤差値に達することを示す。
論文 参考訳(メタデータ) (2022-08-04T10:57:25Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Dual Averaging is Surprisingly Effective for Deep Learning Optimization [20.191456827448736]
1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。
間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。
Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
論文 参考訳(メタデータ) (2020-10-20T17:55:11Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。