論文の概要: Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates
- arxiv url: http://arxiv.org/abs/2406.13046v1
- Date: Tue, 18 Jun 2024 20:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:08:09.779666
- Title: Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates
- Title(参考訳): Bayesian-LoRA: 最適な量子化レベルとランク値を用いたLoRAに基づくパラメータ調整
- Authors: Cristian Meo, Ksenia Sycheva, Anirudh Goyal, Justin Dauwels,
- Abstract要約: 自然言語処理では、単一のモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。
B-LoRAは、特定の下流タスクで事前訓練されたモデルを微調整することができ、ローランク行列ごとに最適なランク値と量子化レベルを求めることができる。
B-LoRAはベースラインよりも同等かそれ以上で動作し、ベースラインに対するビット演算の総量を約70%削減する。
- 参考スコア(独自算出の注目度): 21.811889512977924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is a common practice in natural language processing to pre-train a single model on a general domain and then fine-tune it for downstream tasks. However, when it comes to Large Language Models, fine-tuning the entire model can be computationally expensive, resulting in very intensive energy consumption. As a result, several Parameter efficient fine-tuning (PEFT) approaches were recently proposed. One of the most popular approaches is low-rank adaptation (LoRA), where the key insight is decomposing the update weights of the pre-trained model into two low-rank matrices. However, the proposed approaches either use the same rank value across all different weight matrices or do not use any quantization technique, which has been shown to be one of the most important factors when it comes to a model's energy consumption. In this work, we propose Bayesian-LoRA (B-LoRA) which approaches matrix decomposition and quantization from a Bayesian perspective by employing a prior distribution on both quantization levels and rank values of the learned low-rank matrices. As a result, B-LoRA is able to fine-tune a pre-trained model on a specific downstream task, finding the optimal rank values and quantization levels for every low-rank matrix. We validate the proposed model fine-tuning a pre-trained DeBERTaV3 on the GLUE benchmark. Moreover, we compare it to relevant baselines and present both qualitative and quantitative results, showing how the proposed approach is able to learn optimal-rank quantized matrices. B-LoRA performs on par or better than baselines while reducing the total amount of bit operations of roughly 70% with respect to the baselines ones.
- Abstract(参考訳): 自然言語処理では、一般的なドメイン上で1つのモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。
しかし、大規模言語モデルの場合、モデル全体の微調整は計算コストがかかるため、非常にエネルギー消費が増加する。
その結果、パラメータ効率の良い微細チューニング(PEFT)手法が提案されている。
最も一般的なアプローチの1つはローランク適応(LoRA)であり、そこで重要な洞察は、事前訓練されたモデルの更新重みを2つのローランク行列に分解することである。
しかしながら、提案手法は、全ての異なる重み行列で同じランク値を使用するか、あるいは量子化技術を使用しないかのいずれかであり、これはモデルのエネルギー消費に関して最も重要な要因の1つであることが示されている。
本研究では,B-LoRA(Bayesian-LoRA)を提案する。B-LoRA(Byyesian-LoRA)は,学習された低ランク行列の量子化レベルとランク値の両方について,事前分布を用いて行列分解と量子化にアプローチする。
その結果、B-LoRAは特定の下流タスクで事前訓練されたモデルを微調整することができ、各低ランク行列に対して最適なランク値と量子化レベルを求めることができる。
GLUEベンチマークを用いて,事前学習したDeBERTaV3を微調整したモデルの有効性を検証した。
さらに,これを関連するベースラインと比較し,定性的かつ定量的な結果を示し,提案手法が最適ランクの量子化行列をいかに学習できるかを示した。
B-LoRAはベースラインよりも同等かそれ以上で動作し、ベースラインに対するビット演算の総量を約70%削減する。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - DiffoRA: Enabling Parameter-Efficient LLM Fine-Tuning via Differential Low-Rank Matrix Adaptation [32.369133126167085]
そこで我々は,理論上基礎を成し,モジュールワイドなLoRAを実現する,DiffoRAと呼ばれる新しいPEFT方式を提案する。
DiffoRAの中核には微分適応行列(DAM)があり、どのモジュールが最も適しており、微調整に不可欠かを決定する。
提案手法は,様々なベンチマークにおいて,最先端のベースラインに対して最高のモデル精度を実現する。
論文 参考訳(メタデータ) (2025-02-13T02:41:34Z) - One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
活性化のミニバッチ上での特異値分解(SVD)を計算し,データ駆動方式で新たな重み付けを初期化することによりLoRAを改善することを提案する。
新しいメソッドを $textbfE$xplained $textbfV$ariance $textbfA$daptation (EVA) と呼びます。
論文 参考訳(メタデータ) (2024-10-09T17:59:06Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models [34.1111413429869]
BiLoRA はバイレベル最適化 (BLO) に基づく過度に適合する微調整手法である
自然言語理解と生成タスクをカバーする10のデータセットでテストしました。
論文 参考訳(メタデータ) (2024-03-19T14:11:20Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。