論文の概要: PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2401.11316v1
- Date: Sat, 20 Jan 2024 20:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:08:19.035003
- Title: PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation
- Title(参考訳): PRILoRA: 低ランク適応の削減とランク向上
- Authors: Nadav Benedek, Lior Wolf
- Abstract要約: 我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the proliferation of large pre-trained language models (PLMs),
fine-tuning all model parameters becomes increasingly inefficient, particularly
when dealing with numerous downstream tasks that entail substantial training
and storage costs. Several approaches aimed at achieving parameter-efficient
fine-tuning (PEFT) have been proposed. Among them, Low-Rank Adaptation (LoRA)
stands out as an archetypal method, incorporating trainable rank decomposition
matrices into each target module. Nevertheless, LoRA does not consider the
varying importance of each layer. To address these challenges, we introduce
PRILoRA, which linearly allocates a different rank for each layer, in an
increasing manner, and performs pruning throughout the training process,
considering both the temporary magnitude of weights and the accumulated
statistics of the input to any given layer. We validate the effectiveness of
PRILoRA through extensive experiments on eight GLUE benchmarks, setting a new
state of the art.
- Abstract(参考訳): 大規模事前学習言語モデル(PLM)の普及に伴い、特に相当なトレーニングと記憶コストを必要とする下流タスクを扱う場合、モデルパラメータの微調整は効率が悪くなる。
パラメータ効率のよい微調整(PEFT)を実現するためのいくつかの手法が提案されている。
その中でもLoRA(Lo-Rank Adaptation)は、トレーニング可能な階数分解行列を各ターゲットモジュールに組み込んだアーキティパル手法として際立っている。
それでもLoRAは各レイヤの重要性を考慮していない。
これらの課題に対処するために,各層ごとに異なるランクを線形に割り当てるpriloraを導入し,各層への一時的な重み付けと入力の累積統計量の両方を考慮して,トレーニングプロセス全体にわたってプルーニングを行う。
我々は,8つの接着ベンチマークを用いた広範囲な実験により,priloraの有効性を検証する。
関連論文リスト
- AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning [31.975038164401404]
低ランク適応 (LoRA) 低ランクインクリメンタル更新行列は、凍結事前訓練された重量の上に置かれる。
本稿では,各LoRA層の最適ランクを自動的に識別するフレームワークであるAutoLoRAを紹介する。
自然言語理解,生成,シーケンスラベリングに関する実験により,AutoLoRAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T05:29:35Z) - Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [60.57952775326054]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
DoRAは、細調整されたLLaMA、LLaVA、VL-BARTにおいて、様々な下流タスクにおいてLoRAより一貫して優れている。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - IncreLoRA: Incremental Parameter Allocation Method for
Parameter-Efficient Fine-tuning [15.964205804768163]
IncreLoRAは、トレーニング中にトレーニング可能なパラメータを適応的に追加するインクリメンタルパラメータ割り当て手法である。
我々は,IncreLoRAの有効性を示すため,GLUEの広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-23T10:08:10Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。