論文の概要: FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition
- arxiv url: http://arxiv.org/abs/2404.18848v3
- Date: Sat, 25 May 2024 06:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:47:26.245769
- Title: FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition
- Title(参考訳): FeDeRA:Federated Learning Leveraging Weight Decompositionにおける言語モデルの効率的な微調整
- Authors: Yuxuan Yan, Qianqian Yang, Shunpu Tang, Zhiguo Shi,
- Abstract要約: 微調整後の例外的なパフォーマンスにもかかわらず、プレトレーニング言語モデル(PLM)はプライバシー上の懸念から重大な課題に直面している。
本論文では,フェデレートラーニング(FL)を微調整PLMとみなす。
1つの有望な解決策はパラメータ効率細調整(PEFT)をFLに活用することであり、完全なパラメータ細調整(FFT)よりもはるかに小さなパラメータセットを訓練する。
- 参考スコア(独自算出の注目度): 7.229494183462913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their exceptional performance on various tasks after fine-tuning, pre-trained language models (PLMs) face significant challenges due to growing privacy concerns with data in centralized training methods. We consider federated learning (FL) to fine-tune PLMs in this paper. However, the substantial number of parameters in PLMs poses significant difficulties for client devices with limited communication and computational resources. One promising solution is to exploit parameter-efficient fine-tuning (PEFT) into FL, which trains a much smaller set of parameters than full parameter fine-tuning (FFT). Although remarkably improving training efficiency, PEFT methods may lead to degraded performance especially when data across different clients are non i.i.d, as revealed by experimental results. To overcome this, we propose FeDeRA, which extends and improves a widely used PEFT method, i.e., low-rank adaption (LoRA). FeDeRA follows LoRA by decomposing the weight matrices of the PLMs into low-rank matrices, which allows for more efficient computation and parameter updates during fine-tuning. Different from LoRA which simply initializes these low-rank matrices by random sampling or zeros, the proposed FeDeRA initializes these matrices by the results of performing singular value decomposition (SVD) on the pre-trained weight matrices. Extensive experiments across various tasks and datasets show that FeDeRA outperforms the considered PEFT baselines and is comparable to or even surpasses FFT method within the FL setting in terms of task performance. Moreover, FeDeRA requires only 1% trainable paramentes compared to FFT, significantly reducing training time costs by more than 90% to achieve the same task performance level. The experimental results also highlight the robustness of FeDeRA against data heterogeneity, as it maintains stable task performance even as data heterogeneity increases.
- Abstract(参考訳): 微調整後の様々なタスクにおける例外的なパフォーマンスにもかかわらず、事前訓練された言語モデル(PLM)は、集中的なトレーニング手法におけるデータに対するプライバシー上の懸念が増大するため、重大な課題に直面している。
本論文では,フェデレートラーニング(FL)を微調整PLMとみなす。
しかし、PLMのかなりの数のパラメータは、限られた通信と計算資源を持つクライアントデバイスに重大な困難をもたらす。
1つの有望な解決策はパラメータ効率細調整(PEFT)をFLに活用することであり、完全なパラメータ細調整(FFT)よりもはるかに小さなパラメータセットを訓練する。
PEFT法はトレーニング効率は著しく向上するが、実験結果から明らかになったように、異なるクライアント間のデータが非i.dである場合、特に性能が低下する可能性がある。
これを解決するために、広く使われているPEFT法であるローランク適応法(LoRA)を拡張し改良するFeDeRAを提案する。
FeDeRAは、PLMの重み行列を低ランク行列に分解することでLoRAに従う。
ランダムサンプリングやゼロによってこれらの低ランク行列を単純に初期化するLoRAとは異なり、提案したFeDeRAは、事前学習された重み行列上で特異値分解(SVD)を行い、これらの行列を初期化する。
さまざまなタスクやデータセットにわたる大規模な実験により、FeDeRAはPEFTベースラインよりも優れており、タスクパフォーマンスの面でFL設定内のFFTメソッドに匹敵する、あるいは超越していることが示された。
さらに、FeDeRAはFFTと比較してトレーニング可能な麻痺の1%しか必要とせず、同じタスクパフォーマンスレベルを達成するためにトレーニング時間コストを90%以上削減する。
実験結果は、データ不均一性が増大しても安定したタスク性能を維持するため、データ不均一性に対するFeDeRAの堅牢性も強調する。
関連論文リスト
- EDoRA: Efficient Weight-Decomposed Low-Rank Adaptation via Singular Value Decomposition [2.5269004336032186]
Efficient Weight-Decomposed Low-Rank Adaptation (EDoRA) は、事前学習した重量を大きさと方向の成分に分解する新しいPEFT法である。
EDoRAは、LoRAやDoRAのような最先端の手法と比較して、競争力や優れた性能を達成する。
論文 参考訳(メタデータ) (2025-01-21T11:42:09Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。
実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。
また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文 参考訳(メタデータ) (2024-05-24T13:12:14Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Delving into Parameter-Efficient Fine-Tuning in Code Change Learning: An
Empirical Study [10.052053069122652]
PEFTは、いくつかのコード理解タスクにおいて、優れた性能と計算オーバーヘッドを実証している。
トレーニング済みの汎用知識を下流タスクに活用する。
PEFTがFMFTよりもコード変更関連タスクのタスク特化に優れているかどうかは不明だ。
論文 参考訳(メタデータ) (2024-02-09T08:40:41Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。