Fugu-MT 論文翻訳(概要): When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices

論文の概要: When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices

arxiv url: http://arxiv.org/abs/2405.04765v1
Date: Wed, 8 May 2024 02:24:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-09 15:35:21.308981
Title: When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices
Title（参考訳）: Foresight Pruningがゼロ階最適化に遭遇:低メモリデバイスのための効率的なフェデレーションラーニング
Authors: Pengyu Zhang, Yingjie Liu, Yingbo Zhou, Xiao Du, Xian Wei, Ting Wang, Mingsong Chen,
Abstract要約: Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。 FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
参考スコア（独自算出の注目度）: 36.23767349592602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Federated Learning (FL) enables collaborative learning in Artificial Intelligence of Things (AIoT) design, it fails to work on low-memory AIoT devices due to its heavy memory usage. To address this problem, various federated pruning methods are proposed to reduce memory usage during inference. However, few of them can substantially mitigate the memory burdens during pruning and training. As an alternative, zeroth-order or backpropagation-free (BP-Free) methods can partially alleviate the memory consumption, but they suffer from scaling up and large computation overheads, since the gradient estimation error and floating point operations (FLOPs) increase as the dimensionality of the model parameters grows. In this paper, we propose a federated foresight pruning method based on Neural Tangent Kernel (NTK), which can seamlessly integrate with federated BP-Free training frameworks. We present an approximation to the computation of federated NTK by using the local NTK matrices. Moreover, we demonstrate that the data-free property of our method can substantially reduce the approximation error in extreme data heterogeneity scenarios. Since our approach improves the performance of the vanilla BP-Free method with fewer FLOPs and truly alleviates memory pressure during training and inference, it makes FL more friendly to low-memory devices. Comprehensive experimental results obtained from simulation- and real test-bed-based platforms show that our federated foresight-pruning method not only preserves the ability of the dense model with a memory reduction up to 9x but also boosts the performance of the vanilla BP-Free method with dramatically fewer FLOPs.
Abstract（参考訳）: Federated Learning(FL)は、AIoT(Artificial Intelligence of Things)設計での協調学習を可能にするが、メモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。この問題に対処するために、推論時のメモリ使用量を削減するために、様々なフェデレートプルーニング手法を提案する。しかし、刈り込みや訓練の際の記憶負担を大幅に軽減できるものはほとんどない。代替として、ゼロ階数またはバックプロパゲーションフリー(BP-Free)法はメモリ消費を部分的に軽減できるが、モデルパラメータの次元が大きくなるにつれて勾配推定誤差と浮動小数点演算(FLOP)が増加するため、スケールアップと計算オーバーヘッドの増大に悩まされる。本稿では,Nutral Tangent Kernel(NTK)に基づくフェデレートされたフォレストプルーニング手法を提案する。ローカルNTK行列を用いて,フェデレートされたNTKの計算を近似する。さらに,本手法のデータフリー特性は,極端なデータ不均一性シナリオにおける近似誤差を大幅に低減できることを示した。提案手法は, FLOPの少ないバニラBP-Free法の性能を向上し, トレーニングや推論の際のメモリ圧力を本当に軽減するので, FLを低メモリデバイスに親しみやすくする。シミュレーションおよび実検層ベースプラットフォームから得られた総合的な実験結果から、我々のフェデレートされたフォアストライニング法は、メモリを9倍に減らした高密度モデルの能力を維持できるだけでなく、FLOPを劇的に減らしたバニラBP-Free法の性能も向上することを示した。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
S2A: A Unified Framework for Parameter and Memory Efficient Transfer Learning [8.602744958104969]
本研究では,微調整時の活性化のメモリフットプリントを低減するため,新しいPETLフレームワークであるStructure to Activation (S2A)を提案する。具体的には,1)パラメトリックモデル構造におけるアクティベーションモジュールの設計(バイアス,プロンプト,サイドモジュール)からなり,パラメータやアクティベーションメモリの大幅な削減を実現している。提案手法は既存のPETL技術よりも優れており,GPUメモリフットプリントの4倍の削減を実現しているだけでなく,可変パラメータの少ない精度で競合性能を示す。
論文参考訳（メタデータ） (2025-03-11T08:10:03Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition [93.98343072306619]
本研究では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング手法であるNavier-GaLoreを提案する。様々なPDEタスクの中で、Navier-GaLoreはメモリ節約を実現し、最大75%のメモリ使用量を削減している。
論文参考訳（メタデータ） (2025-01-04T20:51:51Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。 Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文参考訳（メタデータ） (2024-05-24T13:37:48Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Fused Depthwise Tiling for Memory Optimization in TinyML Deep Neural Network Inference [1.6094180182513644]
ディープニューラルネットワーク(DNN)推論のためのメモリ最適化は、TinyMLの出現と高い関連性を得る。 DNN推論は、アクティベーションやその他の中間データを格納するために大きな中間実行時バッファを必要とするため、高いメモリ使用率につながる。本稿では,DNNのメモリ最適化のためのFDT法を提案する。
論文参考訳（メタデータ） (2023-03-31T08:26:17Z)
Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。 2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文参考訳（メタデータ） (2022-12-05T01:58:45Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。