論文の概要: Blank-regularized CTC for Frame Skipping in Neural Transducer
- arxiv url: http://arxiv.org/abs/2305.11558v1
- Date: Fri, 19 May 2023 09:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 15:05:40.385970
- Title: Blank-regularized CTC for Frame Skipping in Neural Transducer
- Title(参考訳): ニューラルトランスデューサにおけるフレームスキッピングのためのブランク正規化CTC
- Authors: Yifan Yang, Xiaoyu Yang, Liyong Guo, Zengwei Yao, Wei Kang, Fangjun
Kuang, Long Lin, Xie Chen, Daniel Povey
- Abstract要約: 本稿では,CTCにおける非ブランクシンボルの自己ループを制約することにより,ブランクを明示的に促進する2つの新しい正規化手法を提案する。
LibriSpeech corpus の実験により,提案手法は,性能を犠牲にすることなく,ニューラルトランスデューサの推論を4倍高速化することを示した。
- 参考スコア(独自算出の注目度): 33.08565763267876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Transducer and connectionist temporal classification (CTC) are popular
end-to-end automatic speech recognition systems. Due to their frame-synchronous
design, blank symbols are introduced to address the length mismatch between
acoustic frames and output tokens, which might bring redundant computation.
Previous studies managed to accelerate the training and inference of neural
Transducers by discarding frames based on the blank symbols predicted by a
co-trained CTC. However, there is no guarantee that the co-trained CTC can
maximize the ratio of blank symbols. This paper proposes two novel
regularization methods to explicitly encourage more blanks by constraining the
self-loop of non-blank symbols in the CTC. It is interesting to find that the
frame reduction ratio of the neural Transducer can approach the theoretical
boundary. Experiments on LibriSpeech corpus show that our proposed method
accelerates the inference of neural Transducer by 4 times without sacrificing
performance. Our work is open-sourced and publicly available
https://github.com/k2-fsa/icefall.
- Abstract(参考訳): ニューラルトランスデューサとコネクショニスト時間分類(CTC)は、エンドツーエンドの自動音声認識システムとして人気がある。
フレーム同期設計のため、音響フレームと出力トークンの間の長さミスマッチに対処するブランクシンボルが導入され、冗長な計算をもたらす可能性がある。
従来の研究は、CTCが予測した空白シンボルに基づいてフレームを破棄することで、ニューラルトランスデューサのトレーニングと推論を加速した。
しかし、共同訓練されたCTCが空白記号の比率を最大化できる保証はない。
本稿では,CTCにおける非ブランクシンボルの自己ループを制約することにより,ブランクを明示的に促進する2つの新しい正規化手法を提案する。
神経トランスデューサのフレーム縮小比が理論境界に近づくことができることが興味深い。
LibriSpeech corpus の実験により,提案手法は,性能を犠牲にすることなく,ニューラルトランスデューサの推論を4倍高速化することを示した。
私たちの仕事はオープンソースであり、https://github.com/k2-fsa/icefall.comで公開されている。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition [9.803556181225193]
エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。
しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。
キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
論文 参考訳(メタデータ) (2023-10-23T13:55:49Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Accelerating RNN-T Training and Inference Using CTC guidance [18.776997761704784]
提案手法は, 単語誤り率(WER)と類似あるいは若干良い単語誤り率(WER)で, RNN-T推論を2.2倍高速化することができる。
提案手法により, 単語誤り率(WER)を2.2倍に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-10-29T03:39:18Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - CTC Variations Through New WFST Topologies [79.94035631317395]
本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移をepsilon>バックオフ遷移に置き換える"compact-CTC"、(2)WFSTコンポジションで使用する際に空白>自己ループのみを追加する"minimal-CTC"、(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
論文 参考訳(メタデータ) (2021-10-06T23:00:15Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。