論文の概要: FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition
- arxiv url: http://arxiv.org/abs/2404.18848v2
- Date: Tue, 30 Apr 2024 14:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 12:57:01.957307
- Title: FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition
- Title(参考訳): FeDeRA:Federated Learning Leveraging Weight Decompositionにおける言語モデルの効率的な微調整
- Authors: Yuxuan Yan, Shunpu Tang, Zhiguo Shi, Qianqian Yang,
- Abstract要約: プレトレーニング言語モデル(PLM)は、微調整後、様々な下流タスクにおいて優れた性能を示した。
フェデレーションラーニング(Federated Learning)は、クライアントのトレーニングのみを必要とし、データを共有せずにサーバの重みを集約するソリューションとして登場した。
本稿では,フェデレーション学習におけるローランド適応(LoRA)法の改良であるFeDeRAを提案する。
- 参考スコア(独自算出の注目度): 7.229494183462912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Language Models (PLMs) have shown excellent performance on various downstream tasks after fine-tuning. Nevertheless, the escalating concerns surrounding user privacy have posed significant challenges to centralized training reliant on extensive data collection. Federated learning, which only requires training on the clients and aggregates weights on the server without sharing data, has emerged as a solution. However, the substantial parameter size of PLMs places a significant burden on the computational resources of client devices, while also leading to costly communication expenses. Introducing Parameter-Efficient Fine-Tuning(PEFT) into federated learning can effectively address this problem. However, we observe that the non-IID data in federated learning leads to a gap in performance between the PEFT method and full parameter fine-tuning(FFT). To overcome this, we propose FeDeRA, an improvement over the Low-Rank Adaption(LoRA) method in federated learning. FeDeRA uses the same adapter module as LoRA. However, the difference lies in FeDeRA's initialization of the adapter module by performing Singular Value Decomposition (SVD) on the pre-trained matrix and selecting its principal components. We conducted extensive experiments, using RoBERTa and DeBERTaV3, on six datasets, comparing the methods including FFT and the other three different PEFT methods. FeDeRA outperforms all other PEFT methods and is comparable to or even surpasses the performance of FFT method. We also deployed federated learning on Jetson AGX Orin and compared the time required by different methods to achieve the target accuracy on specific tasks. Compared to FFT, FeDeRA reduces the training time by 95.9\%, 97.9\%, 96.9\% and 97.3\%, 96.5\%, 96.5\% respectively on three tasks using RoBERTa and DeBERTaV3. The overall experiments indicate that FeDeRA achieves good performance while also maintaining efficiency.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、微調整後、様々な下流タスクにおいて優れた性能を示した。
それでも、ユーザのプライバシに関する懸念がエスカレートし、広範なデータ収集に依存する集中トレーニングに重大な課題をもたらしている。
フェデレーションラーニング(Federated Learning)は、クライアントのトレーニングのみを必要とし、データを共有せずにサーバの重みを集約するソリューションとして登場した。
しかし、PLMのかなりのパラメータサイズは、クライアントデバイスの計算資源に大きな負担を与え、通信コストも高くつく。
パラメータ効率の良いファインチューニング(PEFT)をフェデレーション学習に導入することは、この問題に効果的に対処できる。
しかし,フェデレート学習における非IIDデータは,PEFT法とFFT(Full parameter fine-tuning)のパフォーマンスのギャップを生じさせる。
そこで我々は,フェデレーション学習におけるローランド適応(LoRA)法の改良であるFeDeRAを提案する。
FeDeRAはLoRAと同じアダプタモジュールを使用する。
しかし、FeDeRAのアダプタモジュールの初期化には、事前学習された行列上でSingular Value Decomposition (SVD)を実行し、その主成分を選択することで違いがある。
我々は6つのデータセット上で,RoBERTaとDeBERTaV3を用いた広範囲な実験を行い,FFTと他の3つのPEFT法との比較を行った。
FeDeRAは他のPEFT法よりも優れており、FFT法と同等かそれ以上である。
また,Jetson AGX Orin上でのフェデレーション学習も実施し,特定のタスクに対する目標精度を達成するために,異なる手法で必要な時間を比較した。
FFTと比較して、FeDeRAはRoBERTaとDeBERTaV3の3つのタスクでそれぞれ95.9\%、97.9\%、96.9\%、97.3\%、96.5\%、96.5\%のトレーニング時間を短縮する。
総合実験の結果,FeDeRAは効率を保ちながら良好な性能を発揮することが示された。
関連論文リスト
- Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。
実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。
また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文 参考訳(メタデータ) (2024-05-24T13:12:14Z) - Improving LoRA in Privacy-preserving Federated Learning [44.47315926976059]
ローランク適応(ローランク適応、LoRA)は、事前訓練された言語モデルにおける最も一般的なタスク固有パラメータ効率細調整(PEFT)手法の1つである。
本稿では,これらの課題を緩和するために,LoRAの効率的かつ効果的なフェデレートフリーズA LoRA(FFA-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-03-18T23:20:08Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Delving into Parameter-Efficient Fine-Tuning in Code Change Learning: An
Empirical Study [10.052053069122652]
PEFTは、いくつかのコード理解タスクにおいて、優れた性能と計算オーバーヘッドを実証している。
トレーニング済みの汎用知識を下流タスクに活用する。
PEFTがFMFTよりもコード変更関連タスクのタスク特化に優れているかどうかは不明だ。
論文 参考訳(メタデータ) (2024-02-09T08:40:41Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Make Pre-trained Model Reversible: From Parameter to Memory Efficient
Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。
MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。
MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文 参考訳(メタデータ) (2023-06-01T09:26:17Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。