論文の概要: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02948v1
- Date: Wed, 3 Apr 2024 15:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 18:54:31.477401
- Title: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
- Title(参考訳): PiSSA:大言語モデルの主特異値と特異ベクトル適応
- Authors: Fanxu Meng, Zhaohui Wang, Muhan Zhang,
- Abstract要約: PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。
PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。
- 参考スコア(独自算出の注目度): 23.890454137522774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the parameters of LLMs expand, the computational cost of fine-tuning the entire model becomes prohibitive. To address this challenge, we introduce a PEFT method, Principal Singular values and Singular vectors Adaptation (PiSSA), which optimizes a significantly reduced parameter space while achieving or surpassing the performance of full-parameter fine-tuning. PiSSA is inspired by Intrinsic SAID, which suggests that pre-trained, over-parametrized models inhabit a space of low intrinsic dimension. Consequently, PiSSA represents a matrix W within the model by the product of two trainable matrices A and B, plus a residual matrix $W^{res}$ for error correction. SVD is employed to factorize W, and the principal singular values and vectors of W are utilized to initialize A and B. The residual singular values and vectors initialize the residual matrix $W^{res}$, which keeps frozen during fine-tuning. Notably, PiSSA shares the same architecture with LoRA. However, LoRA approximates Delta W through the product of two matrices, A, initialized with Gaussian noise, and B, initialized with zeros, while PiSSA initializes A and B with principal singular values and vectors of the original matrix W. PiSSA can better approximate the outcomes of full-parameter fine-tuning at the beginning by changing the essential parts while freezing the "noisy" parts. In comparison, LoRA freezes the original matrix and updates the "noise". This distinction enables PiSSA to convergence much faster than LoRA and also achieve better performance in the end. Due to the same architecture, PiSSA inherits many of LoRA's advantages, such as parameter efficiency and compatibility with quantization. Leveraging a fast SVD method, the initialization of PiSSA takes only a few seconds, inducing negligible cost of switching LoRA to PiSSA.
- Abstract(参考訳): LLMのパラメータが大きくなるにつれて、モデル全体を微調整する計算コストは禁じられる。
この課題に対処するために,PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。
PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。
その結果、PiSSAは2つのトレーニング可能な行列 A と B の積と残差行列 $W^{res}$ でモデル内の行列 W を表す。
SVD は W を分解するために使用され、W の主特異値とベクトルは A と B を初期化する。
特に、PiSSAはLoRAと同じアーキテクチャを共有している。
しかし、LoRA は Delta W をガウスノイズで初期化された A と 0 で初期化された B の2つの行列の積を通じて近似し、一方 PiSSA は A と B を元の行列 W. PiSSA の主特異値とベクトルで初期化する。
比較すると、LoRAは元の行列を凍結し、「ノイズ」を更新する。
この区別により、PiSSAはLoRAよりもはるかに早く収束でき、最終的にはパフォーマンスが向上する。
同じアーキテクチャのため、PiSSAはパラメータ効率や量子化との互換性など、LoRAの利点の多くを継承している。
高速SVD法を利用すると、PiSSAの初期化にはほんの数秒しかかからず、LoRAをPiSSAに切り替える際の無視できるコストが発生する。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models [5.573502364188814]
我々は,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。
各SORSAアダプタは、トレーニング可能な主特異重量$W_p = U_p textdiag(S_p) Vtop_p$と、凍結された残留重量$W_r = U_r textdiag(S_r) Vtop_r$の2つの主要部分からなる。
論文 参考訳(メタデータ) (2024-08-21T04:47:26Z) - LoRA-GA: Low-Rank Adaptation with Gradient Approximation [5.685201910521295]
微調整された大規模事前訓練モデルは、計算とメモリコストの点で極めて高価である。
LoRAは、パラメータが著しく少ない補助的な低ランクモデルを微調整することで、コスト効率のよい代替手段を提供する。
LoRAは完全な微調整に比べてかなり遅い速度で収束し、全体的な計算能力が向上し、しばしばテスト性能が悪化する。
論文 参考訳(メタデータ) (2024-07-06T08:37:21Z) - LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
トレーニング可能なパラメータを格段に削減し,優れた性能と競争性能を示すLoRA-XSを提案する。
LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
論文 参考訳(メタデータ) (2024-05-27T19:07:13Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである
LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文 参考訳(メタデータ) (2023-09-05T17:40:34Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。