論文の概要: Tied & Reduced RNN-T Decoder
- arxiv url: http://arxiv.org/abs/2109.07513v1
- Date: Wed, 15 Sep 2021 18:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:08:53.806792
- Title: Tied & Reduced RNN-T Decoder
- Title(参考訳): 結合・縮小型rnn-tデコーダ
- Authors: Rami Botros (1), Tara N. Sainath (1), Robert David (1), Emmanuel
Guzman (1), Wei Li (1), Yanzhang He (1) ((1) Google Inc. USA)
- Abstract要約: 認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works on the Recurrent Neural Network-Transducer (RNN-T) models have
shown that, under some conditions, it is possible to simplify its prediction
network with little or no loss in recognition accuracy (arXiv:2003.07705
[eess.AS], [2], arXiv:2012.06749 [cs.CL]). This is done by limiting the context
size of previous labels and/or using a simpler architecture for its layers
instead of LSTMs. The benefits of such changes include reduction in model size,
faster inference and power savings, which are all useful for on-device
applications.
In this work, we study ways to make the RNN-T decoder (prediction network +
joint network) smaller and faster without degradation in recognition
performance. Our prediction network performs a simple weighted averaging of the
input embeddings, and shares its embedding matrix weights with the joint
network's output layer (a.k.a. weight tying, commonly used in language modeling
arXiv:1611.01462 [cs.LG]). This simple design, when used in conjunction with
additional Edit-based Minimum Bayes Risk (EMBR) training, reduces the RNN-T
Decoder from 23M parameters to just 2M, without affecting word-error rate
(WER).
- Abstract(参考訳): Recurrent Neural Network-Transducer (RNN-T) モデルに関する以前の研究は、いくつかの条件下では、認識精度をほとんど、あるいは全く損なうことなく予測ネットワークを単純化できることを示した(arXiv:2003.07705 [eess.AS], [2], arXiv:2012.06749 [cs.CL])。
これは、以前のラベルのコンテキストサイズを制限したり、LSTMの代わりにレイヤにシンプルなアーキテクチャを使うことによって行われる。
このような変更のメリットには、モデルサイズの減少、推論の高速化、消費電力の削減などがある。
本研究では,認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
予測ネットワークは入力埋め込みの単純な重み付け平均化を行い、その重み付け行列をジョイントネットワークの出力層(arxiv:1611.01462 [cs.lg] で一般的に使用される重み付け)と共有する。
このシンプルな設計は、編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - MST-compression: Compressing and Accelerating Binary Neural Networks
with Minimum Spanning Tree [21.15961593182111]
エッジコンピューティングデバイスにおける計算コストとメモリストレージを削減するために、バイナリニューラルネットワーク(BNN)が広く採用されている。
しかしながら、ニューラルネットワークが精度を向上し、実用的な要件を満たすためにより広く、より深くなるにつれて、計算の負担はバイナリバージョンにおいても大きな課題である。
本稿では,BNNの圧縮と高速化を学習する,最小スパンニングツリー(MST)圧縮法を提案する。
論文 参考訳(メタデータ) (2023-08-26T02:42:12Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - a novel attention-based network for fast salient object detection [14.246237737452105]
現在の有向物体検出ネットワークにおいて、最も一般的な方法はU字型構造を用いることである。
3つのコントリビューションを持つ新しい深層畳み込みネットワークアーキテクチャを提案する。
提案手法は, 精度を損なうことなく, 原サイズの1/3まで圧縮できることを示した。
論文 参考訳(メタデータ) (2021-12-20T12:30:20Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - FAT: Learning Low-Bitwidth Parametric Representation via Frequency-Aware
Transformation [31.546529106932205]
周波数認識変換(fat)は、量子化前に周波数領域のネットワーク重み変換を学習する。
FATは、簡単な標準量子化器を使用して、低精度で簡単にトレーニングできます。
コードはもうすぐ入手できる。
論文 参考訳(メタデータ) (2021-02-15T10:35:20Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference [24.351577383531616]
RNNPoolは、リカレントニューラルネットワーク(RNN)に基づく新しいプール演算子である。
RNNPoolレイヤは、画像分類や顔検出といった標準的な視覚タスクに適用した場合、MobileNetsやDenseNetのようなさまざまなアーキテクチャの複数のブロックを効果的に置き換えることができる。
我々は、RNNPoolを標準のS3FDアーキテクチャで使用し、256KB未満のRAMを持つARM Cortex-M4クラスマイクロコントローラの最先端MAPを実現する。
論文 参考訳(メタデータ) (2020-02-27T05:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。