論文の概要: Breaking the Memory Wall for Heterogeneous Federated Learning with Progressive Training
- arxiv url: http://arxiv.org/abs/2404.13349v1
- Date: Sat, 20 Apr 2024 11:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:19:56.978441
- Title: Breaking the Memory Wall for Heterogeneous Federated Learning with Progressive Training
- Title(参考訳): プログレッシブトレーニングによる不均一なフェデレーション学習のための記憶壁の破壊
- Authors: Yebo Wu, Li Li, Chunlin Tian, Chengzhong Xu,
- Abstract要約: ProFLはプログレッシブFLフレームワークで、オリジナルのアーキテクチャに基づいてモデルを異なるブロックに分割する。
ProFLはピークメモリのフットプリントを57.4%まで効果的に削減し、モデル精度を82.4%まで向上することを示した。
- 参考スコア(独自算出の注目度): 17.622361560299368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ProFL, a novel progressive FL framework to effectively break the memory wall. Specifically, ProFL divides the model into different blocks based on its original architecture. Instead of updating the full model in each training round, ProFL first trains the front blocks and safely freezes them after convergence. Training of the next block is then triggered. This process iterates until the training of the whole model is completed. In this way, the memory footprint is effectively reduced for feasible deployment on heterogeneous devices. In order to preserve the feature representation of each block, we decouple the whole training process into two stages: progressive model shrinking and progressive model growing. During the progressive model shrinking stage, we meticulously design corresponding output modules to assist each block in learning the expected feature representation and obtain the initialization parameters. Then, the obtained output modules are utilized in the corresponding progressive model growing stage. Additionally, to control the training pace for each block, a novel metric from the scalar perspective is proposed to assess the learning status of each block and determines when to trigger the training of the next one. Finally, we theoretically prove the convergence of ProFL and conduct extensive experiments on representative models and datasets to evaluate the effectiveness of ProFL. The results demonstrate that ProFL effectively reduces the peak memory footprint by up to 57.4% and improves model accuracy by up to 82.4%.
- Abstract(参考訳): 本稿では,記憶壁を効果的に破壊する新しいプログレッシブFLフレームワークであるProFLを提案する。
具体的には、ProFLはモデルを元のアーキテクチャに基づいて異なるブロックに分割する。
各トレーニングラウンドでモデル全体を更新する代わりに、ProFLはまずフロントブロックをトレーニングし、収束後に安全に凍結する。
次に次のブロックのトレーニングがトリガーされる。
このプロセスは、モデル全体のトレーニングが完了するまで繰り返します。
このようにして、異種デバイスへのデプロイが可能なメモリフットプリントを効果的に削減する。
各ブロックの特徴的表現を維持するため、トレーニングプロセス全体を2段階に分けて、プログレッシブモデル縮小とプログレッシブモデル成長の2段階に分割する。
プログレッシブモデル縮小段階において,各ブロックが期待する特徴表現を学習し,初期化パラメータを得るのを支援するために,対応する出力モジュールを慎重に設計する。
そして、得られた出力モジュールを対応するプログレッシブモデル成長段階に利用する。
さらに,各ブロックの学習速度を制御するために,スカラー視点による新しいメトリクスを提案し,各ブロックの学習状況を評価し,次のブロックの学習をいつトリガーするかを決定する。
最後に, ProFLの収束性を理論的に証明し, ProFLの有効性を評価するために, 代表モデルおよびデータセットに関する広範な実験を行う。
その結果、ProFLはピークメモリのフットプリントを57.4%まで効果的に削減し、モデル精度を82.4%まで改善した。
関連論文リスト
- Efficient Stagewise Pretraining via Progressive Subnetworks [55.65819977062729]
我々は、トレーニング全体を通して完全なモデルを維持できる代替フレームワークであるプログレッシブサブネットワークトレーニングを提案し、各ステップでモデル内でのみトレインワークを行う。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Module-wise Adaptive Distillation for Multimodality Foundation Models [125.42414892566843]
マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
論文 参考訳(メタデータ) (2023-10-06T19:24:00Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - NeFL: Nested Federated Learning for Heterogeneous Clients [48.160716521203256]
フェデレートラーニング(FL)は、分散ラーニングにおけるプライバシー維持のための有望なアプローチである。
FLのトレーニングパイプラインでは、遅いクライアント(すなわちストラグラー)がトレーニング時間を遅くし、パフォーマンスを低下させる。
奥行きと幅方向の両方のスケーリングを用いて,モデルをモデルに効率的に分割するフレームワークであるネスト付きフェデレーションラーニング(NeFL)を提案する。
論文 参考訳(メタデータ) (2023-08-15T13:29:14Z) - Memory-adaptive Depth-wise Heterogenous Federated Learning [24.13198329419849]
FLにFeDepthというメモリ適応型深度学習ソリューションを導入し,各クライアントのメモリ予算に応じて,全モデルをブロックに適応的に分解する。
CIFAR-10 と CIFAR-100 では,CIFAR-10 と CIFAR-100 でそれぞれ 5% と 10% 以上の精度向上を実現した。
論文 参考訳(メタデータ) (2023-03-08T20:52:57Z) - Latent Iterative Refinement for Modular Source Separation [44.78689915209527]
従来のソース分離アプローチは、すべてのデータを一度に利用できるように、ディープニューラルネットワークモデルをエンドツーエンドにトレーニングする。
我々は、トレーニングと推論の段階において、リソース効率を著しく向上させることができると論じる。
論文 参考訳(メタデータ) (2022-11-22T00:02:57Z) - FedOBD: Opportunistic Block Dropout for Efficiently Training Large-scale
Neural Networks through Federated Learning [18.357577491590686]
本稿では,大規模ニューラルネットワークを学習するためのFedOBD(Federated Opportunistic Block Dropout)アプローチを提案する。
FedOBDは大規模モデルをセマンティックブロックに分解し、FL参加者が偶然に量子化されたブロックをアップロードできるようにする。
実験によると、FedOBDは最高のパフォーマンスのベースラインアプローチに比べて、全体の通信オーバーヘッドを88%以上削減している。
論文 参考訳(メタデータ) (2022-08-10T06:36:49Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。