論文の概要: CTC-synchronous Training for Monotonic Attention Model
- arxiv url: http://arxiv.org/abs/2005.04712v3
- Date: Thu, 6 Aug 2020 10:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 01:30:27.320163
- Title: CTC-synchronous Training for Monotonic Attention Model
- Title(参考訳): 単調アテンションモデルのためのCTC同期トレーニング
- Authors: Hirofumi Inaguma, Masato Mimura, Tatsuya Kawahara
- Abstract要約: 逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
- 参考スコア(独自算出の注目度): 43.0382262234792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monotonic chunkwise attention (MoChA) has been studied for the online
streaming automatic speech recognition (ASR) based on a sequence-to-sequence
framework. In contrast to connectionist temporal classification (CTC), backward
probabilities cannot be leveraged in the alignment marginalization process
during training due to left-to-right dependency in the decoder. This results in
the error propagation of alignments to subsequent token generation. To address
this problem, we propose CTC-synchronous training (CTC-ST), in which MoChA uses
CTC alignments to learn optimal monotonic alignments. Reference CTC alignments
are extracted from a CTC branch sharing the same encoder with the decoder. The
entire model is jointly optimized so that the expected boundaries from MoChA
are synchronized with the alignments. Experimental evaluations of the TEDLIUM
release-2 and Librispeech corpora show that the proposed method significantly
improves recognition, especially for long utterances. We also show that CTC-ST
can bring out the full potential of SpecAugment for MoChA.
- Abstract(参考訳): オンラインストリーミング自動音声認識(ASR)において,シーケンス・ツー・シーケンス・フレームワークに基づくモノトニック・チャンクワイズ・アテンション(MoChA)が研究されている。
接続性時間分類(CTC)とは対照的に,デコーダの左右依存によるトレーニング中のアライメントの辺縁化過程において,後方の確率は利用できない。
これにより、アライメントがその後のトークン生成にエラー伝播する。
この問題に対処するために,MoChAがCTCアライメントを用いて最適なモノトニックアライメントを学習するCTC同期トレーニング(CTC-ST)を提案する。
参照CTCアライメントは、同一エンコーダとデコーダを共有するCTCブランチから抽出される。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
tedlium release-2 と librispeech corpora の実験評価の結果,提案手法は認識,特に長時間発話において有意に改善することがわかった。
また、CTC-STはMoChAのSpecAugmentの可能性を最大限に発揮できることを示す。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks [63.189632935619535]
予測アライメントの望ましい特性を強制するためにベイズリスクCTC(BRCTC)を提案する。
BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。
論文 参考訳(メタデータ) (2022-10-14T03:55:36Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。