論文の概要: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02948v1
- Date: Wed, 3 Apr 2024 15:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 18:54:31.477401
- Title: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
- Title(参考訳): PiSSA:大言語モデルの主特異値と特異ベクトル適応
- Authors: Fanxu Meng, Zhaohui Wang, Muhan Zhang,
- Abstract要約: PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。
PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。
- 参考スコア(独自算出の注目度): 23.890454137522774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the parameters of LLMs expand, the computational cost of fine-tuning the entire model becomes prohibitive. To address this challenge, we introduce a PEFT method, Principal Singular values and Singular vectors Adaptation (PiSSA), which optimizes a significantly reduced parameter space while achieving or surpassing the performance of full-parameter fine-tuning. PiSSA is inspired by Intrinsic SAID, which suggests that pre-trained, over-parametrized models inhabit a space of low intrinsic dimension. Consequently, PiSSA represents a matrix W within the model by the product of two trainable matrices A and B, plus a residual matrix $W^{res}$ for error correction. SVD is employed to factorize W, and the principal singular values and vectors of W are utilized to initialize A and B. The residual singular values and vectors initialize the residual matrix $W^{res}$, which keeps frozen during fine-tuning. Notably, PiSSA shares the same architecture with LoRA. However, LoRA approximates Delta W through the product of two matrices, A, initialized with Gaussian noise, and B, initialized with zeros, while PiSSA initializes A and B with principal singular values and vectors of the original matrix W. PiSSA can better approximate the outcomes of full-parameter fine-tuning at the beginning by changing the essential parts while freezing the "noisy" parts. In comparison, LoRA freezes the original matrix and updates the "noise". This distinction enables PiSSA to convergence much faster than LoRA and also achieve better performance in the end. Due to the same architecture, PiSSA inherits many of LoRA's advantages, such as parameter efficiency and compatibility with quantization. Leveraging a fast SVD method, the initialization of PiSSA takes only a few seconds, inducing negligible cost of switching LoRA to PiSSA.
- Abstract(参考訳): LLMのパラメータが大きくなるにつれて、モデル全体を微調整する計算コストは禁じられる。
この課題に対処するために,PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。
PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。
その結果、PiSSAは2つのトレーニング可能な行列 A と B の積と残差行列 $W^{res}$ でモデル内の行列 W を表す。
SVD は W を分解するために使用され、W の主特異値とベクトルは A と B を初期化する。
特に、PiSSAはLoRAと同じアーキテクチャを共有している。
しかし、LoRA は Delta W をガウスノイズで初期化された A と 0 で初期化された B の2つの行列の積を通じて近似し、一方 PiSSA は A と B を元の行列 W. PiSSA の主特異値とベクトルで初期化する。
比較すると、LoRAは元の行列を凍結し、「ノイズ」を更新する。
この区別により、PiSSAはLoRAよりもはるかに早く収束でき、最終的にはパフォーマンスが向上する。
同じアーキテクチャのため、PiSSAはパラメータ効率や量子化との互換性など、LoRAの利点の多くを継承している。
高速SVD法を利用すると、PiSSAの初期化にはほんの数秒しかかからず、LoRAをPiSSAに切り替える際の無視できるコストが発生する。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - NLoRA: Nyström-Initiated Low-Rank Adaptation for Large Language Models [12.431575579432458]
SLoRA(StructuredLoRA)を導入し,低ランク行列AとBの間に小さな中間行列を加えることを検討した。
次に、Nystr"omLoRA(NLoRA)を提案し、Nystr"om-based initialization for SLoRAを用いて、その有効性と効率を改善する。
最後に,NLoRAの中間行列のみを微調整してLLM効率を向上するIntermediateTune(IntTune)を提案する。
論文 参考訳(メタデータ) (2025-02-20T12:01:11Z) - Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models [23.442612142677504]
Low-Rank Adaption (LoRA)は、大規模言語モデルに対してコスト効率の良い微調整ソリューションを提供する。
しかし、LoRAのメモリフットプリントは、主にオリジナルのモデルパラメータに支配されている。
メモリ効率のよいLoRA学習手法であるLoRAMを提案する。
論文 参考訳(メタデータ) (2025-02-19T08:39:15Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models [5.573502364188814]
我々は,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。
各SORSAアダプタは、トレーニング可能な主特異重量$W_p = U_p textdiag(S_p) Vtop_p$と、凍結された残留重量$W_r = U_r textdiag(S_r) Vtop_r$の2つの主要部分からなる。
論文 参考訳(メタデータ) (2024-08-21T04:47:26Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである
LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文 参考訳(メタデータ) (2023-09-05T17:40:34Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。