論文の概要: Computational Limits of Low-Rank Adaptation (LoRA) for Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2406.03136v1
- Date: Wed, 5 Jun 2024 10:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:50:02.256202
- Title: Computational Limits of Low-Rank Adaptation (LoRA) for Transformer-Based Models
- Title(参考訳): 変圧器モデルに対するローランド適応(LoRA)の計算限界
- Authors: Jerry Yao-Chieh Hu, Maojiang Su, En-Jui Kuo, Zhao Song, Han Liu,
- Abstract要約: 変形器モデルにおけるローランド適応(LoRA)更新の計算限界について検討する。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
我々は,LoRA勾配の階層的低ランク構造を利用して,LoRA適応のためのニアリニア近似アルゴリズムの存在を証明した。
- 参考スコア(独自算出の注目度): 10.827800772359844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the computational limits of Low-Rank Adaptation (LoRA) update for finetuning transformer-based models using fine-grained complexity theory. Our key observation is that the existence of low-rank decompositions within the gradient computation of LoRA adaptation leads to possible algorithmic speedup. This allows us to (i) identify a phase transition behavior and (ii) prove the existence of nearly linear algorithms by controlling the LoRA update computation term by term, assuming the Strong Exponential Time Hypothesis (SETH). For the former, we identify a sharp transition in the efficiency of all possible rank-$r$ LoRA update algorithms for transformers, based on specific norms resulting from the multiplications of the input sequence $\mathbf{X}$, pretrained weights $\mathbf{W^\star}$, and adapter matrices $\alpha \mathbf{B} \mathbf{A} / r$. Specifically, we derive a shared upper bound threshold for such norms and show that efficient (sub-quadratic) approximation algorithms of LoRA exist only below this threshold. For the latter, we prove the existence of nearly linear approximation algorithms for LoRA adaptation by utilizing the hierarchical low-rank structures of LoRA gradients and approximating the gradients with a series of chained low-rank approximations. To showcase our theory, we consider two practical scenarios: partial (e.g., only $\mathbf{W}_V$ and $\mathbf{W}_Q$) and full adaptations (e.g., $\mathbf{W}_Q$, $\mathbf{W}_V$, and $\mathbf{W}_K$) of weights in attention heads.
- Abstract(参考訳): 微粒化複雑性理論を用いた変圧器モデルに対するローランド適応 (LoRA) 更新の計算限界について検討した。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
これによって私たちは
(i)相転移挙動を特定して
(II) 強い指数時間仮説 (SETH) を仮定して, LoRA 更新計算項を項ごとに制御することにより, ほぼ線形アルゴリズムの存在を証明した。
前者については、入力シーケンス$\mathbf{X}$、事前トレーニングウェイト$\mathbf{W^\star}$、アダプタ行列$\alpha \mathbf{B} \mathbf{A} / r$の乗算から生じる特定のノルムに基づいて、トランスフォーマーの可能な全てのランクアルゴリズムの効率の急激な遷移を特定する。
具体的には、そのようなノルムに対する共有上界閾値を導出し、LoRAの効率的な(準四進法的な)近似アルゴリズムがこのしきい値より下にあることを示す。
後者については、LoRA勾配の階層的低ランク構造を利用して、一連の鎖状低ランク近似で勾配を近似することにより、LoRA適応のためのニア線形近似アルゴリズムの存在を証明している。
我々の理論を実証するために、我々は2つの実践シナリオを考える:部分的 (e g , only $\mathbf{W}_V$) と完全適応 (e g , $\mathbf{W}_Q$, $\mathbf{W}_V$, $\mathbf{W}_K$) である。
関連論文リスト
- Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。
SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。
本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-07-07T15:37:13Z) - Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。
既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。
G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-14T14:14:19Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - A Constrained BA Algorithm for Rate-Distortion and Distortion-Rate
Functions [13.570794979535934]
速度歪み関数に対するBlahut-Arimoto (BA)アルゴリズムの修正
修正アルゴリズムは、与えられた対象歪みに対してRD関数を直接計算する。
論文 参考訳(メタデータ) (2023-05-04T08:41:03Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Learning Transition Operators From Sparse Space-Time Samples [11.859913430860335]
遷移作用素$mathbfA$を異なる時間における部分的な観測から学習する非線形問題を考察する。
我々は、$mathcalOrn log(nT)$ space-time sample が、ランク=r$演算子の正確な回復を保証するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-12-01T18:33:59Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Convergence of Online Adaptive and Recurrent Optimization Algorithms [0.0]
我々は、機械学習で使用されるいくつかの顕著な降下アルゴリズムの局所収束を証明した。
我々は確率的視点ではなく「エルゴディック」を採用し、確率分布の代わりに経験的な時間平均で作業する。
論文 参考訳(メタデータ) (2020-05-12T09:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。