論文の概要: A Single Linear Layer Yields Task-Adapted Low-Rank Matrices
- arxiv url: http://arxiv.org/abs/2403.14946v1
- Date: Fri, 22 Mar 2024 04:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:37:30.412793
- Title: A Single Linear Layer Yields Task-Adapted Low-Rank Matrices
- Title(参考訳): タスク適応型低ランク行列の単一線形層収率
- Authors: Hwichan Kim, Shota Sasaki, Sho Hoshino, Ukyo Honda,
- Abstract要約: Low-Rank Adaptation (LoRA) は、初期重量行列$W_0$をデルタ行列$Delta W$で更新するPEFT (Efficient Fine-Tuning) 法として広く用いられている。
CondLoRAのトレーニング可能なパラメータがLoRAのパラメータよりも少ないにもかかわらず、CondLoRAはLoRAと同等のパフォーマンスを維持していることを示す。
- 参考スコア(独自算出の注目度): 4.695004706877747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) is a widely used Parameter-Efficient Fine-Tuning (PEFT) method that updates an initial weight matrix $W_0$ with a delta matrix $\Delta W$ consisted by two low-rank matrices $A$ and $B$. A previous study suggested that there is correlation between $W_0$ and $\Delta W$. In this study, we aim to delve deeper into relationships between $W_0$ and low-rank matrices $A$ and $B$ to further comprehend the behavior of LoRA. In particular, we analyze a conversion matrix that transform $W_0$ into low-rank matrices, which encapsulates information about the relationships. Our analysis reveals that the conversion matrices are similar across each layer. Inspired by these findings, we hypothesize that a single linear layer, which takes each layer's $W_0$ as input, can yield task-adapted low-rank matrices. To confirm this hypothesis, we devise a method named Conditionally Parameterized LoRA (CondLoRA) that updates initial weight matrices with low-rank matrices derived from a single linear layer. Our empirical results show that CondLoRA maintains a performance on par with LoRA, despite the fact that the trainable parameters of CondLoRA are fewer than those of LoRA. Therefore, we conclude that "a single linear layer yields task-adapted low-rank matrices."
- Abstract(参考訳): Low-Rank Adaptation (LoRA) はパラメータ効率の良いファインチューニング(PEFT)法で、初期重み行列を$W_0$で更新し、デルタ行列$\Delta W$は2つの低ランク行列$A$と$B$からなる。
以前の研究では、$W_0$と$\Delta W$の間に相関があることが示唆された。
本研究では,LoRAの振る舞いをより理解するために,$W_0$と$A$,$B$の関係を深く掘り下げることを目的とする。
特に、$W_0$を低ランク行列に変換する変換行列を分析し、関係に関する情報をカプセル化する。
解析の結果,変換行列は各層で類似していることがわかった。
これらの知見に触発されて、各層の$W_0$を入力とする1つの線形層がタスク適応型低ランク行列を生成できるという仮説を立てた。
この仮説を裏付けるために,1つの線形層から導出される低ランク行列で初期重み行列を更新する条件パラメータ化LoRA (CondLoRA) という手法を考案した。
実験の結果,CundLoRAのトレーニング可能なパラメータがLoRAのパラメータよりも少ないにもかかわらず,CundLoRAはLoRAと同等のパフォーマンスを維持していることがわかった。
したがって、「単一線形層はタスク適応型低ランク行列を生成する」と結論付けている。
関連論文リスト
- Asymmetry in Low-Rank Adapters of Foundation Models [47.310550805920585]
本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。
我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
論文 参考訳(メタデータ) (2024-02-26T18:59:12Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - NOLA: Compressing LoRA using Linear Combination of Random Basis [22.76088132446952]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - Globally Convergent Accelerated Algorithms for Multilinear Sparse
Logistic Regression with $\ell_0$-constraints [2.323238724742687]
多重線形ロジスティック回帰は多次元データ解析の強力なツールである。
本稿では,$ell_0$-MLSRを解くために,アクセラレーションされた近位置換最小値MLSRモデルを提案する。
また、APALM$+$が一階臨界点に大域収束し、クルディ・ロジャシエヴィチ性質を用いて収束を確立することも示している。
論文 参考訳(メタデータ) (2023-09-17T11:05:08Z) - Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである
LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文 参考訳(メタデータ) (2023-09-05T17:40:34Z) - One-sided Matrix Completion from Two Observations Per Row [95.87811229292056]
行列の欠落値を$XTX$で計算する自然アルゴリズムを提案する。
合成データの一方の回収と低被覆ゲノムシークエンシングについて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2023-06-06T22:35:16Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Non-PSD Matrix Sketching with Applications to Regression and
Optimization [56.730993511802865]
非PSDおよび2乗根行列の次元削減法を提案する。
複数のダウンストリームタスクにこれらのテクニックをどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-06-16T04:07:48Z) - Linear-Sample Learning of Low-Rank Distributions [56.59844655107251]
ktimes k$, rank-r$, matrices to normalized $L_1$ distance requires $Omega(frackrepsilon2)$ sample。
我々は、$cal O(frackrepsilon2log2fracepsilon)$ sample, a number linear in the high dimension, and almost linear in the matrices, usually low, rank proofs.というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-30T19:10:32Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。