論文の概要: Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers
- arxiv url: http://arxiv.org/abs/2111.14836v1
- Date: Mon, 29 Nov 2021 09:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:57:49.559014
- Title: Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers
- Title(参考訳): 乗算器の交互方向法によるリカレントニューラルネットワークモデルの低ビット量子化
- Authors: Junhao Xu, Xie Chen, Shoukang Hu, Jianwei Yu, Xunying Liu and Helen
Meng
- Abstract要約: 本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
- 参考スコア(独自算出の注目度): 67.688697838109
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The high memory consumption and computational costs of Recurrent neural
network language models (RNNLMs) limit their wider application on resource
constrained devices. In recent years, neural network quantization techniques
that are capable of producing extremely low-bit compression, for example,
binarized RNNLMs, are gaining increasing research interests. Directly training
of quantized neural networks is difficult. By formulating quantized RNNLMs
training as an optimization problem, this paper presents a novel method to
train quantized RNNLMs from scratch using alternating direction methods of
multipliers (ADMM). This method can also flexibly adjust the trade-off between
the compression rate and model performance using tied low-bit quantization
tables. Experiments on two tasks: Penn Treebank (PTB), and Switchboard (SWBD)
suggest the proposed ADMM quantization achieved a model size compression factor
of up to 31 times over the full precision baseline RNNLMs. Faster convergence
of 5 times in model training over the baseline binarized RNNLM quantization was
also obtained. Index Terms: Language models, Recurrent neural networks,
Quantization, Alternating direction methods of multipliers.
- Abstract(参考訳): リカレントニューラルネットワーク言語モデル(RNNLM)の高メモリ消費と計算コストは、リソース制約のあるデバイスに対するより広範な適用を制限する。
近年,二項化RNNLMなどの超低ビット圧縮を実現するニューラルネットワーク量子化技術が研究の関心を集めている。
量子化されたニューラルネットワークの直接トレーニングは難しい。
本稿では、最適化問題として量子化RNNLMのトレーニングを定式化することにより、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する方法を提案する。
また, 圧縮率とモデル性能のトレードオフを, 連結低ビット量子化テーブルを用いて柔軟に調整することができる。
Penn Treebank (PTB) と Switchboard (SWBD) の2つのタスクの実験では、提案されたADMM量子化は、完全な精度ベースライン RNNLM の最大31倍のモデルサイズ圧縮係数を達成した。
ベースラインバイナライズされたRNNLM量子化に対するモデルトレーニングの5倍の高速収束も得られた。
インデックス項:言語モデル、リカレントニューラルネットワーク、量子化、乗算器の交互方向法。
関連論文リスト
- Low Precision Quantization-aware Training in Spiking Neural Networks
with Differentiable Quantization Function [0.5046831208137847]
この研究は、量子化されたニューラルネットワークの最近の進歩とスパイクニューラルネットワークのギャップを埋めることを目的としている。
これは、シグモイド関数の線形結合として表される量子化関数の性能に関する広範な研究を示す。
提案した量子化関数は、4つの人気のあるベンチマーク上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-05-30T09:42:05Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Deep Learning Weight Pruning with RMT-SVD: Increasing Accuracy and
Reducing Overfitting [0.0]
ディープニューラルネットワーク(DNN)の重み層のスペクトルをランダム行列理論(RMT)の手法を用いて研究・理解することができる。
本研究では,これらのRTT手法を用いて, DNNの重み付け層から, 特異値分解(SVD)を通して, どれ程の特異値を取り除くべきかを判断する。
MNISTで訓練した単純なDNNモデルについて,その結果を示す。
論文 参考訳(メタデータ) (2023-03-15T23:19:45Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Stochastic Markov Gradient Descent and Training Low-Bit Neural Networks [77.34726150561087]
本稿では,量子化ニューラルネットワークのトレーニングに適用可能な離散最適化手法であるGradient Markov Descent (SMGD)を紹介する。
アルゴリズム性能の理論的保証と数値的な結果の促進を提供する。
論文 参考訳(メタデータ) (2020-08-25T15:48:15Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - SQWA: Stochastic Quantized Weight Averaging for Improving the
Generalization Capability of Low-Precision Deep Neural Networks [29.187848543158992]
我々は、新しい量子化ニューラルネットワーク最適化手法、量子化ウェイト平均化(SQWA)を提案する。
提案手法には、浮動小数点モデルのトレーニング、重みの直接量子化、複数の低精度モデルのキャプチャ、キャプチャーモデルの平均化、低学習率の微調整が含まれる。
SQWAトレーニングにより、CIFAR-100およびImageNetデータセット上の2ビットQDNNの最先端結果を得た。
論文 参考訳(メタデータ) (2020-02-02T07:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。