論文の概要: Asymmetry in Low-Rank Adapters of Foundation Models
- arxiv url: http://arxiv.org/abs/2402.16842v2
- Date: Tue, 27 Feb 2024 18:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:19:41.612139
- Title: Asymmetry in Low-Rank Adapters of Foundation Models
- Title(参考訳): 基礎モデルの低ランク適応器の非対称性
- Authors: Jiacheng Zhu, Kristjan Greenewald, Kimia Nadjahi, Haitz S\'aez de
Oc\'ariz Borde, Rickard Br\"uel Gabrielsson, Leshem Choshen, Marzyeh
Ghassemi, Mikhail Yurochkin, Justin Solomon
- Abstract要約: 本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。
我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
- 参考スコア(独自算出の注目度): 47.310550805920585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning optimizes large, pre-trained foundation
models by updating a subset of parameters; in this class, Low-Rank Adaptation
(LoRA) is particularly effective. Inspired by an effort to investigate the
different roles of LoRA matrices during fine-tuning, this paper characterizes
and leverages unexpected asymmetry in the importance of low-rank adapter
matrices. Specifically, when updating the parameter matrices of a neural
network by adding a product $BA$, we observe that the $B$ and $A$ matrices have
distinct functions: $A$ extracts features from the input, while $B$ uses these
features to create the desired output. Based on this observation, we
demonstrate that fine-tuning $B$ is inherently more effective than fine-tuning
$A$, and that a random untrained $A$ should perform nearly as well as a
fine-tuned one. Using an information-theoretic lens, we also bound the
generalization of low-rank adapters, showing that the parameter savings of
exclusively training $B$ improves the bound. We support our conclusions with
experiments on RoBERTa, BART-Large, LLaMA-2, and ViTs.
- Abstract(参考訳): パラメータ効率の良い微調整は、パラメータのサブセットを更新することで、大規模で事前訓練された基礎モデルを最適化する。
微調整におけるLoRA行列の役割の相違から着想を得て,低ランクアダプタ行列の重要性において予期せぬ非対称性を特徴付ける。
具体的には、製品$ba$を追加してニューラルネットワークのパラメータ行列を更新するとき、$b$ と $a$ の行列が異なる関数を持つことを観察します。
この観察に基づいて、細調整の$B$は、細調整の$A$よりも本質的に有効であり、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に実行されるべきであることを示す。
また,情報理論レンズを用いて低ランクアダプタの一般化を行ない,B$の専用トレーニングのパラメータセーブがバウンドを改善することを示した。
我々はRoBERTa, BART-Large, LLaMA-2, ViTsの実験で結論を支持した。
関連論文リスト
- A Single Linear Layer Yields Task-Adapted Low-Rank Matrices [4.695004706877747]
Low-Rank Adaptation (LoRA) は、初期重量行列$W_0$をデルタ行列$Delta W$で更新するPEFT (Efficient Fine-Tuning) 法として広く用いられている。
CondLoRAのトレーニング可能なパラメータがLoRAのパラメータよりも少ないにもかかわらず、CondLoRAはLoRAと同等のパフォーマンスを維持していることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:38:42Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation [33.64397196693461]
本稿ではロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。
RoSAは、固定された事前トレーニングされた重みのセットの上に、$textitlow-rank$と$textithighly-sparse$コンポーネントをトレーニングする。
また,RoSAがLoRA,純スパース微調整,代替ハイブリット法を同じパラメータ予算で上回ることを示す。
論文 参考訳(メタデータ) (2024-01-09T17:09:01Z) - Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである
LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文 参考訳(メタデータ) (2023-09-05T17:40:34Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - $\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale
Pre-Trained Models via Label Representation Learning [47.742220473129684]
$mathcalY$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学び、それらを固定された特徴表現に調整する。
1.6億のパラメータを持つ$textDeBERTa_textXXL$の場合、$mathcalY$-tuningはGLUE Benchmarkの完全な微調整の96%以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-20T13:49:34Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。