論文の概要: ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2406.10785v1
- Date: Sun, 16 Jun 2024 02:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:51:13.787748
- Title: ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation
- Title(参考訳): ShareLoRA:Shared Low-Rank Adaptationによるパラメータ効率とロバスト大言語モデルの微調整
- Authors: Yurun Song, Junchen Zhao, Ian G. Harris, Sangeetha Abdu Jyothi,
- Abstract要約: 本研究では,共有低ランク適応(ShareLoRA)を実装することにより,事前学習言語モデル(PLM)に対するPEFT(Efficient Fine Tuning)の最適化手法を提案する。
異なるレイヤにShareLoRAを戦略的にデプロイし、それを自己アテンションレイヤのクエリ、キー、バリューコンポーネントに適用することにより、トレーニングパラメータの数とメモリ使用量を大幅に削減します。
この結果から、ShareLoRAはパラメータ効率を効果的に向上し、異なる言語モデルアーキテクチャにおけるスケーラブルで高品質な性能を確保します。
- 参考スコア(独自算出の注目度): 4.07532985236519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces an approach to optimize Parameter Efficient Fine Tuning (PEFT) for Pretrained Language Models (PLMs) by implementing a Shared Low Rank Adaptation (ShareLoRA). By strategically deploying ShareLoRA across different layers and adapting it for the Query, Key, and Value components of self-attention layers, we achieve a substantial reduction in the number of training parameters and memory usage. Importantly, ShareLoRA not only maintains model performance but also exhibits robustness in both classification and generation tasks across a variety of models, including RoBERTa, GPT-2, LLaMA and LLaMA2. It demonstrates superior transfer learning capabilities compared to standard LoRA applications and mitigates overfitting by sharing weights across layers. Our findings affirm that ShareLoRA effectively boosts parameter efficiency while ensuring scalable and high-quality performance across different language model architectures.
- Abstract(参考訳): 本研究は,共有低ランク適応(ShareLoRA)を実装することにより,事前学習言語モデル(PLM)に対するパラメータ効率のよい微調整(PEFT)を最適化する手法を提案する。
異なるレイヤにShareLoRAを戦略的にデプロイし、それを自己アテンションレイヤのクエリ、キー、バリューコンポーネントに適用することにより、トレーニングパラメータの数とメモリ使用量を大幅に削減します。
重要な点として、ShareLoRAはモデル性能を維持するだけでなく、RoBERTa、GPT-2、LLaMA、LLaMA2など、さまざまなモデルの分類および生成タスクにおいて堅牢性を示す。
標準的なLoRAアプリケーションと比較して優れた転送学習能力を示し、レイヤ間で重みを共有することで過度な適合を緩和する。
この結果から、ShareLoRAはパラメータ効率を効果的に向上し、異なる言語モデルアーキテクチャにおけるスケーラブルで高品質な性能を確保します。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - VB-LoRA: Extreme Parameter Efficient Fine-Tuning with Vector Banks [10.266224162377371]
ローランク適応(LoRA)とその派生型は、かなりのストレージと送信コストを発生させる。
我々は,行列次元,モジュール,レイヤ間の低ランク分解の障壁を断ち切る「分割共有」パラダイムを導入する。
VB-LoRAは、最先端PEFT法と比較して、同等または優れた性能を維持しながら、極端なパラメータ効率を達成する。
論文 参考訳(メタデータ) (2024-05-24T03:24:34Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA [45.38491644250814]
部分回転型低ランク適応(PRoLoRA)は層内共有機構である。
PRoLoRAはその利点を保ち、ピアパラメータ共有手法の欠点を効果的に回避する。
実験によりPRoLoRAのパラメータ効率が著しく向上した。
論文 参考訳(メタデータ) (2024-02-24T13:39:05Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - Tied-Lora: Enhancing parameter efficiency of LoRA with weight tying [6.172790376076545]
低ランク適応(LoRA)のパラメータ効率を高めるために、ウェイトタイリングと選択的トレーニングを活用する新しいパラダイムであるTied-LoRAを導入する。
本稿では,パラメータトレーニングと凍結,およびウェイトタイリングを併用して,パラメータの最適トレードオフとトレーニング可能なパラメータの数を推定する。
論文 参考訳(メタデータ) (2023-11-16T05:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。