論文の概要: Accelerating RNN-T Training and Inference Using CTC guidance
- arxiv url: http://arxiv.org/abs/2210.16481v1
- Date: Sat, 29 Oct 2022 03:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:38:02.848743
- Title: Accelerating RNN-T Training and Inference Using CTC guidance
- Title(参考訳): CTCガイダンスを用いたRNN-Tトレーニングと推論の高速化
- Authors: Yongqiang Wang, Zhehuai Chen, Chengjian Zheng, Yu Zhang, Wei Han,
Parisa Haghani
- Abstract要約: 提案手法は, 単語誤り率(WER)と類似あるいは若干良い単語誤り率(WER)で, RNN-T推論を2.2倍高速化することができる。
提案手法により, 単語誤り率(WER)を2.2倍に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 18.776997761704784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel method to accelerate training and inference process of
recurrent neural network transducer (RNN-T) based on the guidance from a
co-trained connectionist temporal classification (CTC) model. We made a key
assumption that if an encoder embedding frame is classified as a blank frame by
the CTC model, it is likely that this frame will be aligned to blank for all
the partial alignments or hypotheses in RNN-T and it can be discarded from the
decoder input. We also show that this frame reduction operation can be applied
in the middle of the encoder, which result in significant speed up for the
training and inference in RNN-T. We further show that the CTC alignment, a
by-product of the CTC decoder, can also be used to perform lattice reduction
for RNN-T during training. Our method is evaluated on the Librispeech and
SpeechStew tasks. We demonstrate that the proposed method is able to accelerate
the RNN-T inference by 2.2 times with similar or slightly better word error
rates (WER).
- Abstract(参考訳): 本稿では,コネクショナリズム時間分類(CTC)モデルに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニングと推論を高速化する新しい手法を提案する。
我々は、エンコーダ埋め込みフレームがctcモデルによってブランクフレームに分類された場合、このフレームはrnn-tの全ての部分アライメントや仮説に対してブランクにアライメントされ、デコーダ入力から破棄される可能性が高いと仮定した。
また,このフレーム低減操作はエンコーダの中央で適用可能であることを示し,RNN-Tのトレーニングと推論の高速化を実現している。
さらに、CTCデコーダの副産物であるCTCアライメントを用いて、トレーニング中にRNN-Tの格子縮小を行うことができることを示す。
本手法は,LibrispeechとSpeechStewのタスクに基づいて評価する。
提案手法は,RNN-T推論を2.2倍に高速化し,単語誤り率(WER)をわずかに向上することを示した。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Blank-regularized CTC for Frame Skipping in Neural Transducer [33.08565763267876]
本稿では,CTCにおける非ブランクシンボルの自己ループを制約することにより,ブランクを明示的に促進する2つの新しい正規化手法を提案する。
LibriSpeech corpus の実験により,提案手法は,性能を犠牲にすることなく,ニューラルトランスデューサの推論を4倍高速化することを示した。
論文 参考訳(メタデータ) (2023-05-19T09:56:09Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - HMM-Free Encoder Pre-Training for Streaming RNN Transducer [9.970995981222993]
本研究では,ストリームリカレントニューラルネットワークトランスデューサ(RNN-T)モデルのトレーニングを改善するために,フレームワイズラベルを用いたエンコーダ事前トレーニング手順について述べる。
我々の知る限り、これはCTCモデルを用いてHMMベースのフレームワイドラベルを事前学習する最初の試みである。
論文 参考訳(メタデータ) (2021-04-02T16:14:11Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - AIN: Fast and Accurate Sequence Labeling with Approximate Inference
Network [75.44925576268052]
線形鎖条件ランダム場(CRF)モデルは最も広く使われているニューラルネットワークラベリング手法の1つである。
厳密な確率的推論アルゴリズムは典型的にはCRFモデルの訓練と予測段階に適用される。
CRFモデルに対して並列化可能な近似変分推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-17T12:18:43Z) - Effect of Architectures and Training Methods on the Performance of
Learned Video Frame Prediction [10.404162481860634]
実験結果から,残差FCNNアーキテクチャは高いトレーニングとテスト(推論)計算の複雑さを犠牲にして,ピーク信号対雑音比(PSNR)の点で最善であることがわかった。
CRNNは、時間的手続きを通じて、ステートフルなトランケートされたバックプロパゲーションを使用して、安定かつ非常に効率的に訓練することができる。
論文 参考訳(メタデータ) (2020-08-13T20:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。