論文の概要: Compressing LSTM Networks by Matrix Product Operators
- arxiv url: http://arxiv.org/abs/2012.11943v3
- Date: Thu, 31 Mar 2022 05:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 22:15:40.286868
- Title: Compressing LSTM Networks by Matrix Product Operators
- Title(参考訳): マトリックス製品オペレータによるLSTMネットワークの圧縮
- Authors: Ze-Feng Gao, Xingwei Sun, Lan Gao, Junfeng Li and Zhong-Yi Lu
- Abstract要約: Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。
LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 7.395226141345625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Short Term Memory(LSTM) models are the building blocks of many
state-of-the-art natural language processing(NLP) and speech enhancement(SE)
algorithms. However, there are a large number of parameters in an LSTM model.
This usually consumes a large number of resources to train the LSTM model.
Also, LSTM models suffer from computational inefficiency in the inference
phase. Existing model compression methods (e.g., model pruning) can only
discriminate based on the magnitude of model parameters, ignoring the issue of
importance distribution based on the model information. Here we introduce the
MPO decomposition, which describes the local correlation of quantum states in
quantum many-body physics and is used to represent the large model parameter
matrix in a neural network, which can compress the neural network by truncating
the unimportant information in the weight matrix. In this paper, we propose a
matrix product operator(MPO) based neural network architecture to replace the
LSTM model. The effective representation of neural networks by MPO can
effectively reduce the computational consumption of training LSTM models on the
one hand, and speed up the computation in the inference phase of the model on
the other hand. We compare the MPO-LSTM model-based compression model with the
traditional LSTM model with pruning methods on sequence classification,
sequence prediction, and speech enhancement tasks in our experiments. The
experimental results show that our proposed neural network architecture based
on the MPO approach significantly outperforms the pruning approach.
- Abstract(参考訳): Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
しかし、LSTMモデルには多数のパラメータが存在する。
これは通常、LSTMモデルをトレーニングするために大量のリソースを消費する。
また、LSTMモデルは推論フェーズにおける計算不効率に悩まされる。
既存のモデル圧縮手法(例えばモデルプルーニング)は、モデルパラメータの大きさに基づいてのみ判別することができ、モデル情報に基づく重要分布の問題を無視している。
本稿では,量子多体物理学における量子状態の局所相関を記述するmpo分解法を紹介し,重み行列内の重要でない情報を切断することでニューラルネットワークを圧縮できるニューラルネットワークの大規模モデルパラメータ行列を表現する。
本稿では、LSTMモデルを置き換えるために、行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
MPOによるニューラルネットワークの効率的な表現は、一方のLSTMモデルのトレーニングの計算消費を効果的に削減し、他方のモデルの推論フェーズにおける計算を高速化することができる。
本実験では,mpo-lstmモデルに基づく圧縮モデルと従来のlstmモデルと,シーケンス分類,シーケンス予測,音声強調タスクにおけるpruning法を比較した。
実験の結果,mpoアプローチに基づくニューラルネットワークアーキテクチャがプルーニング手法を大幅に上回っていることがわかった。
関連論文リスト
- Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - A critical look at deep neural network for dynamic system modeling [0.0]
本稿では,入力出力データを用いた動的システムのモデリングにおける(深度)ニューラルネットワークの能力に疑問を呈する。
線形時間不変(LTI)力学系の同定には、2つの代表的なニューラルネットワークモデルを比較する。
LTIシステムでは、LSTMとCFNNはノイズのないケースでも一貫したモデルを提供できない。
論文 参考訳(メタデータ) (2023-01-27T09:03:05Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Go Beyond Multiple Instance Neural Networks: Deep-learning Models based
on Local Pattern Aggregation [0.0]
畳み込みニューラルネットワーク(CNN)は、臨床心電図(ECG)と話者非依存音声の処理においてブレークスルーをもたらした。
本稿では,局所的なパターン集約に基づくディープラーニングモデルを提案する。
LPANetと呼ばれる新しいネットワーク構造には、トリミングと集約操作が組み込まれている。
論文 参考訳(メタデータ) (2022-05-28T13:18:18Z) - An advanced spatio-temporal convolutional recurrent neural network for
storm surge predictions [73.4962254843935]
本研究では, 人工ニューラルネットワークモデルを用いて, 嵐の軌跡/規模/強度履歴に基づいて, 強風をエミュレートする能力について検討する。
本研究では, 人工嵐シミュレーションのデータベースを用いて, 強風を予測できるニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T23:42:18Z) - A Comparative Study of Detecting Anomalies in Time Series Data Using
LSTM and TCN Models [2.007262412327553]
本稿では,2つの著名なディープラーニングモデリング手法を比較した。
Recurrent Neural Network (RNN)-based Long Short-Term Memory (LSTM) と Convolutional Neural Network (CNN)-based Temporal Convolutional Networks (TCN) を比較した。
論文 参考訳(メタデータ) (2021-12-17T02:46:55Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Bidirectional LSTM-CRF Attention-based Model for Chinese Word
Segmentation [2.3991565023534087]
中国語単語セグメンテーションのための双方向LSTM-CRFアテンションベースモデルを提案する。
我々のモデルは、他のニューラルネットワークによるベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2021-05-20T11:46:53Z) - Sentiment Analysis Using Simplified Long Short-term Memory Recurrent
Neural Networks [1.5146765382501612]
GOPディベートTwitterデータセット上で感情分析を行う。
学習を高速化し、計算コストと時間を短縮するために、LSTMモデルのスリムバージョンを6つの異なるパラメータで削減する手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T12:50:10Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。