論文の概要: Online Model Compression for Federated Learning with Large Models
- arxiv url: http://arxiv.org/abs/2205.03494v1
- Date: Fri, 6 May 2022 22:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 16:19:37.761305
- Title: Online Model Compression for Federated Learning with Large Models
- Title(参考訳): 大規模モデルを用いた連合学習のためのオンラインモデル圧縮
- Authors: Tien-Ju Yang, Yonghui Xiao, Giovanni Motta, Fran\c{c}oise Beaufays,
Rajiv Mathews, Mingqing Chen
- Abstract要約: Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
- 参考スコア(独自算出の注目度): 8.48327410170884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenges of training large neural network models
under federated learning settings: high on-device memory usage and
communication cost. The proposed Online Model Compression (OMC) provides a
framework that stores model parameters in a compressed format and decompresses
them only when needed. We use quantization as the compression method in this
paper and propose three methods, (1) using per-variable transformation, (2)
weight matrices only quantization, and (3) partial parameter quantization, to
minimize the impact on model accuracy. According to our experiments on two
recent neural networks for speech recognition and two different datasets, OMC
can reduce memory usage and communication cost of model parameters by up to 59%
while attaining comparable accuracy and training speed when compared with
full-precision training.
- Abstract(参考訳): 本稿では、デバイス上でのメモリ使用量と通信コストの増大という、フェデレートされた学習環境下での大規模ニューラルネットワークモデルのトレーニングの課題に対処する。
提案されたオンラインモデル圧縮(OMC)は、モデルパラメータを圧縮形式で保存し、必要に応じて圧縮するフレームワークを提供する。
本論文では量子化を圧縮法として用いて,(1)変量変換,(2)量行列のみの量子化,(3)部分パラメータの量子化の3つの手法を提案し,モデル精度への影響を最小化する。
最近の2つの音声認識用ニューラルネットワークと2つの異なるデータセットに関する実験によれば、omcはモデルパラメータのメモリ使用量と通信コストを最大59%削減でき、完全な精度とトレーニング速度を、全精度トレーニングと比較して達成できる。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Variational autoencoder-based neural network model compression [4.992476489874941]
変分オートエンコーダ(VAE)は、深部生成モデルの一種であり、近年広く使われている。
本稿では,VAEに基づくニューラルネットワークモデル圧縮手法について検討する。
論文 参考訳(メタデータ) (2024-08-25T09:06:22Z) - MCNC: Manifold Constrained Network Compression [21.70510507535041]
MCNCをパラメータ空間を低次元の事前定義および凍結された非線形多様体に制約する新しいモデル圧縮法として提示する。
提案手法であるMCNCは, 圧縮, 精度, モデル再構成時間において, 最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-06-27T16:17:26Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Deep Hierarchy Quantization Compression algorithm based on Dynamic
Sampling [11.439540966972212]
フェデレーションされた機械学習は、トレーニングのためにデータをローカルに保存し、サーバ上でモデルを集約する。
トレーニングプロセス中、モデルパラメータの送信はネットワーク帯域にかなりの負荷を与える可能性がある。
本稿では,データ転送によるネットワーク負荷を低減し,モデルをさらに圧縮する階層的量子化圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T15:12:30Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。