Fugu-MT 論文翻訳(概要): PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

論文の概要: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

arxiv url: http://arxiv.org/abs/2404.02948v1
Date: Wed, 3 Apr 2024 15:06:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 18:54:31.477401
Title: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
Title（参考訳）: PiSSA:大言語モデルの主特異値と特異ベクトル適応
Authors: Fanxu Meng, Zhaohui Wang, Muhan Zhang,
Abstract要約: PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。 PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。
参考スコア（独自算出の注目度）: 23.890454137522774
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the parameters of LLMs expand, the computational cost of fine-tuning the entire model becomes prohibitive. To address this challenge, we introduce a PEFT method, Principal Singular values and Singular vectors Adaptation (PiSSA), which optimizes a significantly reduced parameter space while achieving or surpassing the performance of full-parameter fine-tuning. PiSSA is inspired by Intrinsic SAID, which suggests that pre-trained, over-parametrized models inhabit a space of low intrinsic dimension. Consequently, PiSSA represents a matrix W within the model by the product of two trainable matrices A and B, plus a residual matrix $W^{res}$ for error correction. SVD is employed to factorize W, and the principal singular values and vectors of W are utilized to initialize A and B. The residual singular values and vectors initialize the residual matrix $W^{res}$, which keeps frozen during fine-tuning. Notably, PiSSA shares the same architecture with LoRA. However, LoRA approximates Delta W through the product of two matrices, A, initialized with Gaussian noise, and B, initialized with zeros, while PiSSA initializes A and B with principal singular values and vectors of the original matrix W. PiSSA can better approximate the outcomes of full-parameter fine-tuning at the beginning by changing the essential parts while freezing the "noisy" parts. In comparison, LoRA freezes the original matrix and updates the "noise". This distinction enables PiSSA to convergence much faster than LoRA and also achieve better performance in the end. Due to the same architecture, PiSSA inherits many of LoRA's advantages, such as parameter efficiency and compatibility with quantization. Leveraging a fast SVD method, the initialization of PiSSA takes only a few seconds, inducing negligible cost of switching LoRA to PiSSA.
Abstract（参考訳）: LLMのパラメータが大きくなるにつれて、モデル全体を微調整する計算コストは禁じられる。この課題に対処するために,PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。 PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。その結果、PiSSAは2つのトレーニング可能な行列 A と B の積と残差行列 $W^{res}$ でモデル内の行列 W を表す。 SVD は W を分解するために使用され、W の主特異値とベクトルは A と B を初期化する。特に、PiSSAはLoRAと同じアーキテクチャを共有している。しかし、LoRA は Delta W をガウスノイズで初期化された A と 0 で初期化された B の2つの行列の積を通じて近似し、一方 PiSSA は A と B を元の行列 W. PiSSA の主特異値とベクトルで初期化する。比較すると、LoRAは元の行列を凍結し、「ノイズ」を更新する。この区別により、PiSSAはLoRAよりもはるかに早く収束でき、最終的にはパフォーマンスが向上する。同じアーキテクチャのため、PiSSAはパラメータ効率や量子化との互換性など、LoRAの利点の多くを継承している。高速SVD法を利用すると、PiSSAの初期化にはほんの数秒しかかからず、LoRAをPiSSAに切り替える際の無視できるコストが発生する。

関連論文リスト

Kronecker-LoRA: hybrid Kronecker-LoRA adapters for scalable, sustainable fine-tuning [0.5629386140722666]
冷凍リニアアップデートをKronecker製品として最初に分解する2段アダプタである textbfKron-LoRA を導入する。 Kron-LoRAは、標準のランク8のLoRAアダプタよりも少ないパラメータで最大4ドル!
論文参考訳（メタデータ） (2025-08-04T00:02:15Z)
SingLoRA: Low Rank Adaptation Using a Single Matrix [7.828928639229988]
Low-Rank Adaptation (LoRA) は、大きな事前訓練されたモデルのパラメータ効率の高い微調整を著しく進歩させた。本稿では,SingLoRAを提案する。SingLoRAは,重み付け更新を変換によって乗算した1つの低ランク行列の分解として学習することで,低ランク適応を再構築する。
論文参考訳（メタデータ） (2025-07-08T01:11:30Z)
WeightLoRA: Keep Only Necessary Adapters [79.89637596855]
低ランク適応(texttLoRA$)は、指定されたレイヤにトレーニング可能なアダプタを追加する。我々は、最も重要な$textttLoRA$ヘッダの適応的な選択によってこの問題を克服する新しい方法である$textttWeightLoRA$を提案する。我々は、一連の競合ベンチマークとDeBERTa、BART、Llamaモデルの実験を行い、我々の手法を異なる適応的アプローチと比較した。
論文参考訳（メタデータ） (2025-06-03T10:33:16Z)
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
Towards Symmetric Low-Rank Adapters [3.3317825075368908]
より少ない重みを持つLoRAの最適化版であるSymmetric Low-Rank Adaptersを導入する。この方法は、下流タスクをより効率的に学習するために、低ランク対称重み行列を利用する。
論文参考訳（メタデータ） (2025-03-29T21:52:17Z)
R-LoRA: Random Initialization of Multi-Head LoRA for Multi-Task Learning [12.431575579432458]
ローランク適応 (LoRA) はパラメータ効率の高い微調整法として最も一般的なものの一つである。マルチヘッドランダム化を取り入れたR-LoRAを提案する。実験により、R-LoRAはタスク固有の知識を捉えるのに優れていることが示された。
論文参考訳（メタデータ） (2025-02-21T13:30:21Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models [23.442612142677504]
Low-Rank Adaption (LoRA)は、大規模言語モデルに対してコスト効率の良い微調整ソリューションを提供する。しかし、LoRAのメモリフットプリントは、主にオリジナルのモデルパラメータに支配されている。メモリ効率のよいLoRA学習手法であるLoRAMを提案する。
論文参考訳（メタデータ） (2025-02-19T08:39:15Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-31T12:48:27Z)
SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models [5.573502364188814]
我々は,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。各SORSAアダプタは、トレーニング可能な主特異重量$W_p = U_p textdiag(S_p) Vtop_p$と、凍結された残留重量$W_r = U_r textdiag(S_r) Vtop_r$の2つの主要部分からなる。
論文参考訳（メタデータ） (2024-08-21T04:47:26Z)
LoRA-GA: Low-Rank Adaptation with Gradient Approximation [5.685201910521295]
微調整された大規模事前訓練モデルは、計算とメモリコストの点で極めて高価である。 LoRAは、パラメータが著しく少ない補助的な低ランクモデルを微調整することで、コスト効率のよい代替手段を提供する。 LoRAは完全な微調整に比べてかなり遅い速度で収束し、全体的な計算能力が向上し、しばしばテスト性能が悪化する。
論文参考訳（メタデータ） (2024-07-06T08:37:21Z)
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
トレーニング可能なパラメータを格段に削減し,優れた性能と競争性能を示すLoRA-XSを提案する。 LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
論文参考訳（メタデータ） (2024-05-27T19:07:13Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文参考訳（メタデータ） (2024-02-04T05:05:43Z)
TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文参考訳（メタデータ） (2023-12-09T16:12:25Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文参考訳（メタデータ） (2023-09-05T17:40:34Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。