論文の概要: Thinking Forward: Memory-Efficient Federated Finetuning of Language Models
- arxiv url: http://arxiv.org/abs/2405.15551v2
- Date: Tue, 22 Oct 2024 13:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:24:40.996591
- Title: Thinking Forward: Memory-Efficient Federated Finetuning of Language Models
- Title(参考訳): 考える: メモリ効率の良い言語モデルのフェデレーションファインタニング
- Authors: Kunjal Panchal, Nisarg Parikh, Sunav Choudhary, Lijun Zhang, Yuriy Brun, Hui Guan,
- Abstract要約: 連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
- 参考スコア(独自算出の注目度): 21.438831528354513
- License:
- Abstract: Finetuning large language models (LLMs) in federated learning (FL) settings has become increasingly important as it allows resource-constrained devices to finetune a model using private data. However, finetuning LLMs using backpropagation requires excessive memory (especially from intermediate activations) for resource-constrained devices. While Forward-mode Auto-Differentiation (AD) can significantly reduce memory footprint from activations, we observe that directly applying it to LLM finetuning results in slow convergence and poor accuracy. In this paper, we introduce Spry, an FL algorithm that splits trainable weights of an LLM among participating clients, such that each client computes gradients using forward-mode AD that are closer estimations of the true gradients. Spry achieves a low memory footprint, high accuracy, and fast convergence. We formally prove that the global gradients in Spry are unbiased estimators of true global gradients for homogeneous data distributions across clients, while heterogeneity increases bias of the estimates. We also derive Spry's convergence rate, showing that the gradients decrease inversely proportional to the number of FL rounds, indicating the convergence up to the limits of heterogeneity. Empirically, Spry reduces the memory footprint during training by 1.4-7.1x in contrast to backpropagation, while reaching comparable accuracy, across a wide range of language tasks, models, and FL settings. Spry reduces the convergence time by 1.2-20.3x and achieves 5.2-13.5% higher accuracy against zero-order methods. When finetuning Llama2-7B with LoRA, compared to the peak memory consumption of 33.9GB of backpropagation, Spry only consumes 6.2GB of peak memory. For OPT13B, the reduction is from 76.5GB to 10.8GB. Spry makes feasible previously impossible FL deployments on commodity edge devices. Our source code is available at https://github.com/Astuary/Spry.
- Abstract(参考訳): 大規模言語モデル(LLM)をフェデレート学習(FL)設定で微調整することは、リソース制約のあるデバイスがプライベートデータを使ってモデルを微調整できるため、ますます重要になっている。
しかし、バックプロパゲーションを用いた微調整 LLM はリソース制約されたデバイスに対して過剰なメモリ(特に中間活性化から)を必要とする。
Forward-mode Auto-Differentiation (AD) は、メモリフットプリントをアクティベーションから著しく低減するが、LSMファインタニングに直接適用すると、収束が遅く、精度が低下する。
本稿では,LDMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介し,各クライアントが真の勾配をよりよく推定するフォワードモードADを用いて勾配を計算する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
我々は、Spryのグローバル勾配が、クライアント間の同質なデータ分布に対する真のグローバル勾配の偏りのない推定値であることを正式に証明し、一方、不均一性は推定値の偏りを増大させる。
また、スプリーの収束率を導出し、勾配がFLラウンドの数に比例して減少し、不均一性の限界まで収束することを示す。
経験的に、Spryは、バックプロパゲーションとは対照的に、トレーニング中のメモリフットプリントを1.4-7.1x削減し、幅広い言語タスク、モデル、FL設定で同等の精度に達する。
Spryは収束時間を1.2-20.3x削減し、ゼロオーダー法に対して5.2-13.5%高い精度を達成する。
Llama2-7BをLoRAで微調整した場合、ピークメモリの33.9GBのバックプロパゲーションと比較して、Spryは6.2GBのピークメモリしか消費しない。
OPT13Bでは76.5GBから10.8GBに削減された。
Spryは、コモディティエッジデバイス上で、これまで不可能だったFLデプロイメントを実現する。
ソースコードはhttps://github.com/Astuary/Spry.comで公開されています。
関連論文リスト
- SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。
FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。
本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T02:24:09Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - DPZero: Private Fine-Tuning of Language Models without Backpropagation [49.365749361283704]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。
DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。
論文 参考訳(メタデータ) (2023-10-14T18:42:56Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Wireless Federated Learning with Limited Communication and Differential
Privacy [21.328507360172203]
本稿では,空力計算(AirComp)に基づくフェデレーション学習(FL)モデルにおいて,リモートユーザにおけるローカルデータセットの効率的な通信と差分プライバシー(DP)における次元性低減の役割について検討する。
論文 参考訳(メタデータ) (2021-06-01T15:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。