論文の概要: Scaling Federated Learning for Fine-tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2102.00875v1
- Date: Mon, 1 Feb 2021 14:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:14:02.364302
- Title: Scaling Federated Learning for Fine-tuning of Large Language Models
- Title(参考訳): 大規模言語モデルの微調整のためのスケーリングフェデレーション学習
- Authors: Agrin Hilmkil and Sebastian Callh and Matteo Barbieri and Leon Ren\'e
S\"utfeld and Edvin Listo Zec and Olof Mogren
- Abstract要約: フェデレートラーニング(FL)は、分散コンピューティングと分散データに対する有望なアプローチであり、法的フレームワークに対するプライバシーとコンプライアンスのレベルを提供する。
本稿では,トランスフォーマーに基づく言語モデルの,フェデレート学習環境における微調整について検討する。
タスク性能に対する分散計算の影響を評価するため,最大32のクライアント数に対して広範囲に調査を行った。
- 参考スコア(独自算出の注目度): 0.5405981353784006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated learning (FL) is a promising approach to distributed compute, as
well as distributed data, and provides a level of privacy and compliance to
legal frameworks. This makes FL attractive for both consumer and healthcare
applications. While the area is actively being explored, few studies have
examined FL in the context of larger language models and there is a lack of
comprehensive reviews of robustness across tasks, architectures, numbers of
clients, and other relevant factors. In this paper, we explore the fine-tuning
of Transformer-based language models in a federated learning setting. We
evaluate three popular BERT-variants of different sizes (BERT, ALBERT, and
DistilBERT) on a number of text classification tasks such as sentiment analysis
and author identification. We perform an extensive sweep over the number of
clients, ranging up to 32, to evaluate the impact of distributed compute on
task performance in the federated averaging setting. While our findings suggest
that the large sizes of the evaluated models are not generally prohibitive to
federated training, we found that the different models handle federated
averaging to a varying degree. Most notably, DistilBERT converges significantly
slower with larger numbers of clients, and under some circumstances, even
collapses to chance level performance. Investigating this issue presents an
interesting perspective for future research.
- Abstract(参考訳): Federated Learning(FL)は分散コンピューティングと分散データに対する有望なアプローチであり、法的なフレームワークに対するプライバシーとコンプライアンスのレベルを提供します。
これにより、FLは消費者およびヘルスケアアプリケーションの両方に魅力的になります。
この領域は積極的に検討されているが、より大きな言語モデルの文脈でflを調査した研究はほとんどなく、タスク、アーキテクチャ、クライアントの数、その他の関連する要因間での堅牢性に関する包括的なレビューが欠けている。
本稿では,共用学習環境におけるトランスフォーマティブ言語モデルの微調整について検討する。
我々は,感情分析や著者識別などのテキスト分類タスクにおいて,さまざまなサイズのBERT変異(BERT, ALBERT, DistilBERT)を評価する。
フェデレーション平均設定におけるタスクパフォーマンスに対する分散計算の影響を評価するために、32までのクライアント数を広範囲に監視します。
実験結果から, 評価モデルの大規模化は, 一般にフェデレーショントレーニングを禁止していないことが示唆されるが, 異なるモデルがフェデレーション平均化を様々な程度に扱うことが判明した。
特にDistilBERTは、より多くのクライアントと大幅に遅く収束し、いくつかの状況下では、チャンスレベルのパフォーマンスに崩壊します。
この問題を調査することは、将来の研究に興味深い視点をもたらす。
関連論文リスト
- Scalable Vertical Federated Learning via Data Augmentation and Amortized Inference [1.912429179274357]
本稿では,ベイズモデルを垂直的フェデレート学習環境に組み込むための,初めての包括的枠組みを紹介する。
本稿では,共同確率がクライアント固有確率の積に分解される,特定のVFLシナリオに対する革新的モデル定式化を提案する。
我々の研究は、垂直に分割されたデータシナリオにおけるプライバシー保護、分散ベイズ推論の道を開いた。
論文 参考訳(メタデータ) (2024-05-07T06:29:06Z) - Exploiting Label Skews in Federated Learning with Model Concatenation [39.38427550571378]
Federated Learning(FL)は、生データを交換することなく、さまざまなデータオーナでディープラーニングを実行するための、有望なソリューションとして登場した。
非IID型では、ラベルスキューは困難であり、画像分類やその他のタスクで一般的である。
我々は,これらの局所モデルをグローバルモデルの基礎として分解する,シンプルで効果的なアプローチであるFedConcatを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:44:52Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - FedSampling: A Better Sampling Strategy for Federated Learning [81.85411484302952]
フェデレートラーニング(FL)は、プライバシを保存する方法で分散化されたデータからモデルを学習するための重要なテクニックである。
既存のFLメソッドは通常、各ラウンドでローカルモデル学習のために一様にクライアントをサンプリングする。
フェデレート学習のための新しいデータ一様サンプリング戦略(FedSampling)を提案する。
論文 参考訳(メタデータ) (2023-06-25T13:38:51Z) - Confidence-aware Personalized Federated Learning via Variational
Expectation Maximization [34.354154518009956]
パーソナライズド・フェデレーション・ラーニング(PFL)のための新しいフレームワークを提案する。
PFLは、クライアント間で共有モデルをトレーニングする分散学習スキームである。
階層的モデリングと変分推論に基づくPFLの新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T20:12:27Z) - When Do Curricula Work in Federated Learning? [56.88941905240137]
カリキュラム学習は非IID性を大幅に軽減する。
クライアント間でデータ配布を多様化すればするほど、学習の恩恵を受けるようになる。
本稿では,クライアントの現実的格差を生かした新しいクライアント選択手法を提案する。
論文 参考訳(メタデータ) (2022-12-24T11:02:35Z) - No One Left Behind: Inclusive Federated Learning over Heterogeneous
Devices [79.16481453598266]
この問題に対処するクライアント包摂的フェデレーション学習手法であるInclusiveFLを提案する。
InclusiveFLの中核となる考え方は、異なるサイズのモデルを異なる計算能力を持つクライアントに割り当てることである。
また,異なる大きさの複数の局所モデル間で知識を共有する効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T13:03:27Z) - Splitfed learning without client-side synchronization: Analyzing
client-side split network portion size to overall performance [4.689140226545214]
Federated Learning (FL)、Split Learning (SL)、SplitFed Learning (SFL)は、分散機械学習における最近の3つの発展である。
本稿では,クライアント側モデル同期を必要としないSFLについて検討する。
MNISTテストセットでのMulti-head Split Learningよりも1%-2%の精度しか得られない。
論文 参考訳(メタデータ) (2021-09-19T22:57:23Z) - Unifying Distillation with Personalization in Federated Learning [1.8262547855491458]
Federated Learning(FL)は、クライアントがデータを共有せずに中央アグリゲータを通じて共同作業モデルを学習する分散プライバシ保護学習技術である。
この設定では、すべてのクライアントが単一の共通予測器(FedAvg)を学習する。
本稿では,2段階のパーソナライズされた学習アルゴリズムPersFLを用いてこの問題に対処する。
第1段階では、PersFLはFLトレーニングフェーズにおいて各クライアントの最適な教師モデルを見つけ、第2段階では、PersFLは有用な知識を抽出する。
論文 参考訳(メタデータ) (2021-05-31T17:54:29Z) - WAFFLe: Weight Anonymized Factorization for Federated Learning [88.44939168851721]
データが機密性やプライベート性を持つドメインでは、ローカルデバイスを離れることなく、分散的に学習できるメソッドには大きな価値があります。
本稿では,フェデレートラーニングのためのウェイト匿名化因子化(WAFFLe)を提案する。これは,インド・バフェット・プロセスとニューラルネットワークの重み要因の共有辞書を組み合わせたアプローチである。
論文 参考訳(メタデータ) (2020-08-13T04:26:31Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。