論文の概要: On the Prediction Network Architecture in RNN-T for ASR
- arxiv url: http://arxiv.org/abs/2206.14618v1
- Date: Wed, 29 Jun 2022 13:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 21:07:40.059453
- Title: On the Prediction Network Architecture in RNN-T for ASR
- Title(参考訳): ASRのためのRNN-Tにおける予測ネットワークアーキテクチャについて
- Authors: Dario Albesano and Jes\'us Andr\'es-Ferrer and Nicola Ferri and Puming
Zhan
- Abstract要約: 一般的なコンフォーマーエンコーダをベースとした4種類の予測ネットワークを比較した。
スコアボードにインスパイアされた新しい単純な予測ネットワークアーキテクチャであるN-Concatを提案する。
- 参考スコア(独自算出の注目度): 1.7262456746016954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RNN-T models have gained popularity in the literature and in commercial
systems because of their competitiveness and capability of operating in online
streaming mode. In this work, we conduct an extensive study comparing several
prediction network architectures for both monotonic and original RNN-T models.
We compare 4 types of prediction networks based on a common state-of-the-art
Conformer encoder and report results obtained on Librispeech and an internal
medical conversation data set. Our study covers both offline batch-mode and
online streaming scenarios. In contrast to some previous works, our results
show that Transformer does not always outperform LSTM when used as prediction
network along with Conformer encoder. Inspired by our scoreboard, we propose a
new simple prediction network architecture, N-Concat, that outperforms the
others in our on-line streaming benchmark. Transformer and n-gram reduced
architectures perform very similarly yet with some important distinct behaviour
in terms of previous context. Overall we obtained up to 4.1 % relative WER
improvement compared to our LSTM baseline, while reducing prediction network
parameters by nearly an order of magnitude (8.4 times).
- Abstract(参考訳): RNN-Tモデルは、オンラインストリーミングモードでの競争力と操作能力のために、文学や商業システムで人気を博している。
本研究では,単調モデルとオリジナルのrnn-tモデルの両方に対する予測ネットワークアーキテクチャの比較を行った。
本稿では,共通状態のコンフォーメータエンコーダに基づく4種類の予測ネットワークと,librispeechおよび内部医療会話データセットを用いた報告結果を比較した。
本研究はオフラインバッチモードとオンラインストリーミングシナリオの両方をカバーする。
従来の研究とは対照的に,Transformer は Conformer encoder とともに予測ネットワークとして使用する場合,LSTM を常に上回っている訳ではない。
スコアボードに触発されて、オンラインストリーミングベンチマークで他よりも優れる、新しいシンプルな予測ネットワークアーキテクチャであるn-concatを提案しました。
トランスフォーマーとn-gramの縮小アーキテクチャは、以前のコンテキストにおいていくつかの重要な異なる振る舞いで、非常によく似ている。
総じて、LSTMベースラインに比べて最大4.1%の相対的なWER改善を実現し、予測ネットワークパラメータをほぼ1桁(8.4倍)削減した。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。
本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文 参考訳(メタデータ) (2024-04-09T02:59:17Z) - Set-based Neural Network Encoding Without Weight Tying [91.37161634310819]
本稿では,ネットワーク特性予測のためのニューラルネットワーク重み符号化手法を提案する。
我々のアプローチは、混合アーキテクチャのモデル動物園でニューラルネットワークを符号化することができる。
ニューラルネットワークのプロパティ予測には,クロスデータセットとクロスアーキテクチャという,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-05-26T04:34:28Z) - Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for
Video Prediction [1.2537993038844142]
将来のビデオフレーム予測のためのマルチスケール予測符号化モデルを提案する。
我々のモデルは、より高レベルなニューロンが粗い予測(より低解像度)を生成するマルチスケールアプローチ(粗から微細)を採用している。
本稿では,長期予測における予測誤差の蓄積を軽減するためのトレーニング戦略のいくつかの改善を提案する。
論文 参考訳(メタデータ) (2022-12-22T12:15:37Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Effect of Architectures and Training Methods on the Performance of
Learned Video Frame Prediction [10.404162481860634]
実験結果から,残差FCNNアーキテクチャは高いトレーニングとテスト(推論)計算の複雑さを犠牲にして,ピーク信号対雑音比(PSNR)の点で最善であることがわかった。
CRNNは、時間的手続きを通じて、ステートフルなトランケートされたバックプロパゲーションを使用して、安定かつ非常に効率的に訓練することができる。
論文 参考訳(メタデータ) (2020-08-13T20:45:28Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - Stacked Bidirectional and Unidirectional LSTM Recurrent Neural Network
for Forecasting Network-wide Traffic State with Missing Values [23.504633202965376]
我々は、RNNベースのモデルに注目し、RNNとその変種を交通予測モデルに組み込む方法を再検討する。
トラフィック状態予測のためのニューラルネットワーク構造の設計を支援するために,スタック型双方向・一方向LSTMネットワークアーキテクチャ(SBU-LSTM)を提案する。
また,LSTM構造(LSTM-I)におけるデータ計算機構を提案する。
論文 参考訳(メタデータ) (2020-05-24T00:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。