論文の概要: Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates
- arxiv url: http://arxiv.org/abs/2406.13046v3
- Date: Mon, 28 Oct 2024 17:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:14.840143
- Title: Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates
- Title(参考訳): Bayesian-LoRA: 最適な量子化レベルとランク値を用いたLoRAに基づくパラメータ調整
- Authors: Cristian Meo, Ksenia Sycheva, Anirudh Goyal, Justin Dauwels,
- Abstract要約: 自然言語処理では、単一のモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。
B-LoRAは、特定の下流タスクで事前訓練されたモデルを微調整することができ、ローランク行列ごとに最適なランク値と量子化レベルを求めることができる。
B-LoRAはベースラインと同等かそれ以上で動作し、ビット操作の総数を約70%削減する。
- 参考スコア(独自算出の注目度): 21.811889512977924
- License:
- Abstract: It is a common practice in natural language processing to pre-train a single model on a general domain and then fine-tune it for downstream tasks. However, when it comes to Large Language Models, fine-tuning the entire model can be computationally expensive, resulting in very intensive energy consumption. As a result, several Parameter Efficient Fine-Tuning (PEFT) approaches were recently proposed. One of the most popular approaches is low-rank adaptation (LoRA), where the key insight is decomposing the update weights of the pre-trained model into two low-rank matrices. However, the proposed approaches either use the same rank value across all different weight matrices, which has been shown to be a sub-optimal choice, or do not use any quantization technique, one of the most important factors when it comes to a model's energy consumption. In this work, we propose Bayesian-LoRA which approaches low-rank adaptation and quantization from a Bayesian perspective by employing a prior distribution on both quantization levels and rank values. As a result, B-LoRA is able to fine-tune a pre-trained model on a specific downstream task, finding the optimal rank values and quantization levels for every low-rank matrix. We validate the proposed model by fine-tuning a pre-trained DeBERTaV3 on the GLUE benchmark. Moreover, we compare it to relevant baselines and present both qualitative and quantitative results, showing how the proposed approach is able to learn optimal-rank quantized matrices. B-LoRA performs on par with or better than the baselines while reducing the total number of bit operations by roughly 70% compared to the baseline methods.
- Abstract(参考訳): 自然言語処理では、一般的なドメイン上で1つのモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。
しかし、大規模言語モデルの場合、モデル全体の微調整は計算コストがかかるため、非常にエネルギー消費が増加する。
その結果、パラメータ効率の良い細調整(PEFT)手法が提案されている。
最も一般的なアプローチの1つはローランク適応(LoRA)であり、そこで重要な洞察は、事前訓練されたモデルの更新重みを2つのローランク行列に分解することである。
しかし、提案手法は、全ての異なる重み行列で同じランク値を用いており、これは準最適選択であることが示されているか、あるいはモデルのエネルギー消費に関して最も重要な要素である量子化技術を使用していないかのいずれかである。
本研究では,量子化レベルとランク値の両方の事前分布を用いて,ベイズ的視点から低ランク適応と量子化にアプローチするベイズ的ロラを提案する。
その結果、B-LoRAは特定の下流タスクで事前訓練されたモデルを微調整することができ、各低ランク行列に対して最適なランク値と量子化レベルを求めることができる。
GLUEベンチマークで事前学習したDeBERTaV3を微調整することにより,提案モデルの有効性を検証した。
さらに,これを関連するベースラインと比較し,定性的かつ定量的な結果を示し,提案手法が最適ランクの量子化行列をいかに学習できるかを示した。
B-LoRAはベースラインと同等以上の性能を示し、ベースライン法と比較してビット演算の総数を約70%削減する。
関連論文リスト
- One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
我々は,活性化のミニバッチ上での特異値分解を計算し,新しい重みをデータ駆動方式で初期化することによりLoRAを強化することを提案する。
EVAを言語生成や理解から画像分類や強化学習まで,さまざまな微調整タスクに適用する。
論文 参考訳(メタデータ) (2024-10-09T17:59:06Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models [34.1111413429869]
BiLoRA はバイレベル最適化 (BLO) に基づく過度に適合する微調整手法である
自然言語理解と生成タスクをカバーする10のデータセットでテストしました。
論文 参考訳(メタデータ) (2024-03-19T14:11:20Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。