論文の概要: Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition
- arxiv url: http://arxiv.org/abs/2103.00422v1
- Date: Sun, 28 Feb 2021 08:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:06:45.215815
- Title: Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition
- Title(参考訳): オンラインストリーミングアテンションに基づく音声認識のためのアライメント知識蒸留
- Authors: Hirofumi Inaguma, Tatsuya Kawahara
- Abstract要約: 本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
- 参考スコア(独自算出の注目度): 46.69852287267763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article describes an efficient training method for online streaming
attention-based encoder-decoder (AED) automatic speech recognition (ASR)
systems. AED models have achieved competitive performance in offline scenarios
by jointly optimizing all components. They have recently been extended to an
online streaming framework via models such as monotonic chunkwise attention
(MoChA). However, the elaborate attention calculation process is not robust for
long-form speech utterances. Moreover, the sequence-level training objective
and time-restricted streaming encoder cause a nonnegligible delay in token
emission during inference. To address these problems, we propose CTC
synchronous training (CTC-ST), in which CTC alignments are leveraged as a
reference for token boundaries to enable a MoChA model to learn optimal
monotonic input-output alignments. We formulate a purely end-to-end training
objective to synchronize the boundaries of MoChA to those of CTC. The CTC model
shares an encoder with the MoChA model to enhance the encoder representation.
Moreover, the proposed method provides alignment information learned in the CTC
branch to the attention-based decoder. Therefore, CTC-ST can be regarded as
self-distillation of alignment knowledge from CTC to MoChA. Experimental
evaluations on a variety of benchmark datasets show that the proposed method
significantly reduces recognition errors and emission latency simultaneously,
especially for long-form and noisy speech. We also compare CTC-ST with several
methods that distill alignment knowledge from a hybrid ASR system and show that
the CTC-ST can achieve a comparable tradeoff of accuracy and latency without
relying on external alignment information. The best MoChA system shows
performance comparable to that of RNN-transducer (RNN-T).
- Abstract(参考訳): 本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
AEDモデルは、すべてのコンポーネントを共同最適化することで、オフラインシナリオにおける競合的なパフォーマンスを実現している。
最近では monotonic chunkwise attention (mocha) などのモデルを通じて,オンラインストリーミングフレームワークにも拡張されている。
しかし, 長文発話では, 精巧な注意計算処理は頑健ではない。
さらに、シーケンスレベルのトレーニング目標と時間制限ストリーミングエンコーダは、推論中にトークンの放出が無視できない遅延を引き起こす。
そこで本研究では,CTC同期トレーニング(CTC-ST)を提案し,CTCアライメントをトークンバウンダリの参照として利用し,MoChAモデルが最適のモノトニック入力出力アライメントを学習できるようにする。
CTCとMoChAの境界を同期させるため、純粋にエンドツーエンドのトレーニング目標を定式化する。
CTCモデルはエンコーダ表現を強化するために、MoChAモデルとエンコーダを共有する。
さらに,提案手法はctcブランチで学習したアライメント情報を注意に基づくデコーダに提供する。
したがって、CTC-STはCTCからMoChAへのアライメント知識の自己蒸留とみなすことができる。
様々なベンチマークデータセットにおける実験的評価により,提案手法は認識誤りと遅延を同時に低減し,特に長文音声と雑音音声を同時に検出できることがわかった。
また, ハイブリッドasrシステムからアライメント知識を蒸留する手法とctc-stを比較し, 外部アライメント情報に頼らずに精度とレイテンシのトレードオフを実現できることを示した。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - An Investigation of Enhancing CTC Model for Triggered Attention-based
Streaming ASR [19.668440671541546]
Mask-CTCとトリガアテンション機構を組み合わせることで、ストリーミングエンドツーエンド自動音声認識(ASR)システムを構築する。
提案手法は従来のトリガアテンションベースのストリーミングASRシステムよりも低レイテンシで高い精度を実現する。
論文 参考訳(メタデータ) (2021-10-20T06:44:58Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording [46.69852287267763]
本稿では,効率的なバッチ出力同期および低レイテンシ入力同期探索を利用するブロック同期ビーム探索復号法を提案する。
また、確率を利用してモデル状態のリセットに適したタイミングを決定するVADフリー推論アルゴリズムを提案する。
実験により,ブロック同期復号法はラベル同期復号法と同等の精度が得られることが示された。
論文 参考訳(メタデータ) (2021-07-15T17:59:10Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。