論文の概要: BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models
- arxiv url: http://arxiv.org/abs/2403.13037v1
- Date: Tue, 19 Mar 2024 14:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 20:59:01.711741
- Title: BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models
- Title(参考訳): BiLoRA: 大規模事前学習モデルの高効率低ランク適応のための2レベル最適化フレームワーク
- Authors: Rushi Qiang, Ruiyi Zhang, Pengtao Xie,
- Abstract要約: BiLoRA はバイレベル最適化 (BLO) に基づく過度に適合する微調整手法である
自然言語理解と生成タスクをカバーする10のデータセットでテストしました。
- 参考スコア(独自算出の注目度): 34.1111413429869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) is a popular method for fine-tuning large-scale pre-trained models in downstream tasks by learning low-rank incremental matrices. Though LoRA and its variants effectively reduce the number of trainable parameters compared to full fine-tuning methods, they often overfit training data, resulting in sub-optimal generalization on test data. To address this problem, we introduce BiLoRA, an overfitting-alleviating fine-tuning approach based on bi-level optimization (BLO). BiLoRA employs pseudo singular value decomposition to parameterize low-rank incremental matrices and splits the training of pseudo singular vectors and values across two different subsets of training data. This division, embedded within separate levels of the BLO framework, mitigates the risk of overfitting to a single dataset. Tested on ten datasets covering natural language understanding and generation tasks and applied to various well-known large pre-trained models, BiLoRA significantly outperforms LoRA methods and other fine-tuning approaches, with similar amounts of trainable parameters.
- Abstract(参考訳): 低ランク適応(LoRA)は、低ランクインクリメンタル行列を学習することにより、下流タスクにおける大規模事前学習モデルの微調整に人気がある手法である。
LoRAとその変種は、完全な微調整法に比べてトレーニング可能なパラメータの数を効果的に減少させるが、トレーニングデータによく適合し、テストデータに対する準最適一般化をもたらす。
この問題に対処するために,バイレベル最適化(BLO)に基づく過度な微調整手法であるBiLoRAを導入する。
BiLoRAは擬似特異値分解を用いて低ランクインクリメンタル行列をパラメータ化し、擬似特異ベクトルと値のトレーニングをトレーニングデータの2つの異なるサブセットに分割する。
この分割は、BLOフレームワークの別のレベルに埋め込まれており、単一のデータセットに過度に適合するリスクを軽減する。
自然言語の理解と生成タスクをカバーする10のデータセットでテストされ、よく知られた大規模な事前学習モデルに適用されたBiLoRAは、同様のトレーニング可能なパラメータを持つLoRAメソッドやその他の微調整アプローチを著しく上回っている。
関連論文リスト
- Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates [21.811889512977924]
自然言語処理では、単一のモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。
B-LoRAは、特定の下流タスクで事前訓練されたモデルを微調整することができ、ローランク行列ごとに最適なランク値と量子化レベルを求めることができる。
B-LoRAはベースラインと同等かそれ以上で動作し、ビット操作の総数を約70%削減する。
論文 参考訳(メタデータ) (2024-06-18T20:26:30Z) - AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning [31.975038164401404]
低ランク適応 (LoRA) 低ランクインクリメンタル更新行列は、凍結事前訓練された重量の上に置かれる。
本稿では,各LoRA層の最適ランクを自動的に識別するフレームワークであるAutoLoRAを紹介する。
自然言語理解,生成,シーケンスラベリングに関する実験により,AutoLoRAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T05:29:35Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。