Fugu-MT 論文翻訳(概要): PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

論文の概要: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

arxiv url: http://arxiv.org/abs/2404.02948v3
Date: Tue, 28 May 2024 14:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 00:59:19.191758
Title: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
Title（参考訳）: PiSSA:大言語モデルの主特異値と特異ベクトル適応
Authors: Fanxu Meng, Zhaohui Wang, Muhan Zhang,
Abstract要約: 主特異値と特異ベクトル適応(PiSSA)を導入する。 PiSSAはLoRAと同じアーキテクチャを共有しているが、アダプタ行列を$A$と$B$で初期化し、元の行列の主成分は$W$である。 LoRAと比較すると、PiSSAは主コンポーネントを更新し、"残留"部分を凍結することで、より高速な収束と性能の向上を実現している。
参考スコア（独自算出の注目度）: 23.890454137522774
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To parameter-efficiently fine-tune (PEFT) large language models (LLMs), the low-rank adaptation (LoRA) method approximates the model changes $\Delta W \in \mathbb{R}^{m \times n}$ through the product of two matrices $A \in \mathbb{R}^{m \times r}$ and $B \in \mathbb{R}^{r \times n}$, where $r \ll \min(m, n)$, $A$ is initialized with Gaussian noise, and $B$ with zeros. LoRA freezes the original model $W$ and updates the "Noise & Zero" adapter, which may lead to slow convergence. To overcome this limitation, we introduce Principal Singular values and Singular vectors Adaptation (PiSSA). PiSSA shares the same architecture as LoRA, but initializes the adaptor matrices $A$ and $B$ with the principal components of the original matrix $W$, and put the remaining components into a residual matrix $W^{res} \in \mathbb{R}^{m \times n}$ which is frozen during fine-tuning. Compared to LoRA, PiSSA updates the principal components while freezing the "residual" parts, allowing faster convergence and enhanced performance. Comparative experiments of PiSSA and LoRA across 12 different models, ranging from 184M to 70B, encompassing 5 NLG and 8 NLU tasks, reveal that PiSSA consistently outperforms LoRA under identical experimental setups. On the GSM8K benchmark, Mistral-7B fine-tuned with PiSSA achieves an accuracy of 72.86%, surpassing LoRA's 67.7% by 5.16%. Due to the same architecture, PiSSA is also compatible with quantization to further reduce the memory requirement of fine-tuning. Compared to QLoRA, QPiSSA (PiSSA with 4-bit quantization) exhibits smaller quantization errors in the initial stages. Fine-tuning LLaMA-3-70B on GSM8K, QPiSSA attains an accuracy of 86.05%, exceeding the performances of QLoRA at 81.73%. Leveraging a fast SVD technique, PiSSA can be initialized in only a few seconds, presenting a negligible cost for transitioning from LoRA to PiSSA.
Abstract（参考訳）: パラメータ効率のよいPEFT(英語版)大言語モデル (LLMs) に対して、ローランク適応 (LoRA) 法はモデルの変更を近似する$\Delta W \in \mathbb{R}^{m \times n}$ 2つの行列の積$A \in \mathbb{R}^{m \times r}$と$B \in \mathbb{R}^{r \times n}$、$r \ll \min(m, n)$、$A$はガウス雑音で初期化される$B$である。 LoRAはオリジナルのモデルである$W$をフリーズし、"Noise & Zero"アダプタを更新する。この制限を克服するために、主特異値と特異ベクトル適応(PiSSA)を導入する。 PiSSAはLoRAと同じアーキテクチャを共有しているが、適応行列の$A$と$B$を元の行列の主成分である$W$で初期化し、残りのコンポーネントを残留行列の$W^{res} \in \mathbb{R}^{m \times n}$に置き、微調整中に凍結する。 LoRAと比較すると、PiSSAは主コンポーネントを更新し、"残留"部分を凍結することで、より高速な収束とパフォーマンスの向上を実現している。 5つのNLGタスクと8つのNLUタスクを含む184Mから70Bまで、12種類のモデルにわたるPiSSAとLoRAの比較実験により、PiSSAは同じ実験装置で一貫してLoRAを上回っていることが明らかになった。 GSM8Kベンチマークでは、PiSSAで微調整されたMistral-7Bの精度は72.86%に達し、ロラの67.7%を5.16%上回った。同じアーキテクチャのため、PiSSAは量子化と互換性があり、微調整のメモリ要求をさらに削減できる。 QLoRAと比較すると、QPiSSA(PiSSAと4ビット量子化)は初期段階でより小さい量子化誤差を示す。 GSM8K上の微調整LLaMA-3-70Bでは、QPiSSAの精度は86.05%に達し、QLoRAの性能は81.73%を超えた。高速なSVD技術を利用すると、PiSSAはほんの数秒で初期化でき、LoRAからPiSSAへの移行には無視できるコストがかかる。

関連論文リスト

Towards Symmetric Low-Rank Adapters [3.3317825075368908]
より少ない重みを持つLoRAの最適化版であるSymmetric Low-Rank Adaptersを導入する。この方法は、下流タスクをより効率的に学習するために、低ランク対称重み行列を利用する。
論文参考訳（メタデータ） (2025-03-29T21:52:17Z)
R-LoRA: Random Initialization of Multi-Head LoRA for Multi-Task Learning [12.431575579432458]
ローランク適応 (LoRA) はパラメータ効率の高い微調整法として最も一般的なものの一つである。マルチヘッドランダム化を取り入れたR-LoRAを提案する。実験により、R-LoRAはタスク固有の知識を捉えるのに優れていることが示された。
論文参考訳（メタデータ） (2025-02-21T13:30:21Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models [23.442612142677504]
Low-Rank Adaption (LoRA)は、大規模言語モデルに対してコスト効率の良い微調整ソリューションを提供する。しかし、LoRAのメモリフットプリントは、主にオリジナルのモデルパラメータに支配されている。メモリ効率のよいLoRA学習手法であるLoRAMを提案する。
論文参考訳（メタデータ） (2025-02-19T08:39:15Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-31T12:48:27Z)
SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models [5.573502364188814]
我々は,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。各SORSAアダプタは、トレーニング可能な主特異重量$W_p = U_p textdiag(S_p) Vtop_p$と、凍結された残留重量$W_r = U_r textdiag(S_r) Vtop_r$の2つの主要部分からなる。
論文参考訳（メタデータ） (2024-08-21T04:47:26Z)
LoRA-GA: Low-Rank Adaptation with Gradient Approximation [5.685201910521295]
微調整された大規模事前訓練モデルは、計算とメモリコストの点で極めて高価である。 LoRAは、パラメータが著しく少ない補助的な低ランクモデルを微調整することで、コスト効率のよい代替手段を提供する。 LoRAは完全な微調整に比べてかなり遅い速度で収束し、全体的な計算能力が向上し、しばしばテスト性能が悪化する。
論文参考訳（メタデータ） (2024-07-06T08:37:21Z)
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
トレーニング可能なパラメータを格段に削減し,優れた性能と競争性能を示すLoRA-XSを提案する。 LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
論文参考訳（メタデータ） (2024-05-27T19:07:13Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文参考訳（メタデータ） (2024-02-04T05:05:43Z)
TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文参考訳（メタデータ） (2023-12-09T16:12:25Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文参考訳（メタデータ） (2023-09-05T17:40:34Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。