論文の概要: Online Model Compression for Federated Learning with Large Models
- arxiv url: http://arxiv.org/abs/2205.03494v1
- Date: Fri, 6 May 2022 22:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 16:19:37.761305
- Title: Online Model Compression for Federated Learning with Large Models
- Title(参考訳): 大規模モデルを用いた連合学習のためのオンラインモデル圧縮
- Authors: Tien-Ju Yang, Yonghui Xiao, Giovanni Motta, Fran\c{c}oise Beaufays,
Rajiv Mathews, Mingqing Chen
- Abstract要約: Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
- 参考スコア(独自算出の注目度): 8.48327410170884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenges of training large neural network models
under federated learning settings: high on-device memory usage and
communication cost. The proposed Online Model Compression (OMC) provides a
framework that stores model parameters in a compressed format and decompresses
them only when needed. We use quantization as the compression method in this
paper and propose three methods, (1) using per-variable transformation, (2)
weight matrices only quantization, and (3) partial parameter quantization, to
minimize the impact on model accuracy. According to our experiments on two
recent neural networks for speech recognition and two different datasets, OMC
can reduce memory usage and communication cost of model parameters by up to 59%
while attaining comparable accuracy and training speed when compared with
full-precision training.
- Abstract(参考訳): 本稿では、デバイス上でのメモリ使用量と通信コストの増大という、フェデレートされた学習環境下での大規模ニューラルネットワークモデルのトレーニングの課題に対処する。
提案されたオンラインモデル圧縮(OMC)は、モデルパラメータを圧縮形式で保存し、必要に応じて圧縮するフレームワークを提供する。
本論文では量子化を圧縮法として用いて,(1)変量変換,(2)量行列のみの量子化,(3)部分パラメータの量子化の3つの手法を提案し,モデル精度への影響を最小化する。
最近の2つの音声認識用ニューラルネットワークと2つの異なるデータセットに関する実験によれば、omcはモデルパラメータのメモリ使用量と通信コストを最大59%削減でき、完全な精度とトレーニング速度を、全精度トレーニングと比較して達成できる。
関連論文リスト
- The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models [47.99478573698432]
コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
論文 参考訳(メタデータ) (2023-03-15T03:21:38Z) - Deep Hierarchy Quantization Compression algorithm based on Dynamic
Sampling [11.439540966972212]
フェデレーションされた機械学習は、トレーニングのためにデータをローカルに保存し、サーバ上でモデルを集約する。
トレーニングプロセス中、モデルパラメータの送信はネットワーク帯域にかなりの負荷を与える可能性がある。
本稿では,データ転送によるネットワーク負荷を低減し,モデルをさらに圧縮する階層的量子化圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T15:12:30Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Differentiable Network Pruning for Microcontrollers [14.864940447206871]
本稿では,畳み込みニューラルネットワークのための可変構造型ネットワークプルーニング法を提案する。
モデル固有のリソース使用量とパラメータ重要度フィードバックを統合し、高度に圧縮されかつ正確な分類モデルを得る。
論文 参考訳(メタデータ) (2021-10-15T20:26:15Z) - Distributed Methods with Compressed Communication for Solving
Variational Inequalities, with Theoretical Guarantees [115.08148491584997]
本稿では,MASHA1 と MASHA2 の圧縮通信による変分不等式とサドル点問題の解法について理論的に検討した。
新しいアルゴリズムは双方向圧縮をサポートし、バッチの設定や、クライアントの部分的な参加を伴うフェデレーション学習のために修正することもできる。
論文 参考訳(メタデータ) (2021-10-07T10:04:32Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。