論文の概要: Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions
- arxiv url: http://arxiv.org/abs/2104.02724v1
- Date: Tue, 6 Apr 2021 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:40:12.819403
- Title: Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions
- Title(参考訳): 中間予測条件付けによるctc型asrの条件独立性仮定の緩和
- Authors: Jumon Nozaki, Tatsuya Komatsu
- Abstract要約: 我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
- 参考スコア(独自算出の注目度): 14.376418789524783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method to relax the conditional independence assumption
of connectionist temporal classification (CTC)-based automatic speech
recognition (ASR) models. We train a CTC-based ASR model with auxiliary CTC
losses in intermediate layers in addition to the original CTC loss in the last
layer. During both training and inference, each generated prediction in the
intermediate layers is summed to the input of the next layer to condition the
prediction of the last layer on those intermediate predictions. Our method is
easy to implement and retains the merits of CTC-based ASR: a simple model
architecture and fast decoding speed. We conduct experiments on three different
ASR corpora. Our proposed method improves a standard CTC model significantly
(e.g., more than 20 % relative word error rate reduction on the WSJ corpus)
with a little computational overhead. Moreover, for the TEDLIUM2 corpus and the
AISHELL-1 corpus, it achieves a comparable performance to a strong
autoregressive model with beam search, but the decoding speed is at least 30
times faster.
- Abstract(参考訳): 本稿では,接続型時間分類(CTC)に基づく自動音声認識(ASR)モデルの条件独立性を緩和する手法を提案する。
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
トレーニングと推論の間、中間層で生成された各予測は次の層の入力にまとめられ、それらの中間層上での最後の層の予測を条件付ける。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
3種類のASRコーパスについて実験を行った。
提案手法は,計算オーバーヘッドの少ない標準CTCモデル(例えば,WSJコーパスの単語誤り率を20%以上削減するなど)を大幅に改善する。
さらに、TEDLium2コーパスとAISHELL-1コーパスでは、ビームサーチによる強力な自己回帰モデルと同等の性能を発揮するが、復号速度は少なくとも30倍高速である。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss [43.39035144463951]
Momentum PL (MPL) は、ラベルのないデータに基づいてコネクショニスト時間分類 (CTC) に基づくモデルを訓練する。
CTCは、単純かつ高速な推論アルゴリズムと崩壊ラベルの生成に対する堅牢性のため、MPLやPLベースの半教師付きASRによく適している。
CTCに基づくモデリングの最近の進歩に触発されて、中間損失を導入し、MPLを強化することを提案する。
論文 参考訳(メタデータ) (2022-11-02T00:18:25Z) - Improving CTC-based ASR Models with Gated Interlayer Collaboration [9.930655347717932]
本稿では,モデルにコンテキスト情報を導入するGated Interlayer Collaboration機構を提案する。
我々は,中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
論文 参考訳(メタデータ) (2022-05-25T03:21:27Z) - InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASR [17.967459632339374]
コンディショニングのための拡張中間表現を用いたCTCベースのASRのための新しいトレーニング手法であるInterAugを提案する。
提案手法は、自己条件付きCTCの条件付けフレームワークを利用して、「ノイズ」中間予測を条件付けして頑健なモデルを訓練する。
削除,挿入,置換誤差をシミュレートした拡張実験において,訓練されたモデルが各誤差に対して堅牢性を得ることを確認した。
論文 参考訳(メタデータ) (2022-04-01T02:51:21Z) - CTC Variations Through New WFST Topologies [79.94035631317395]
本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移をepsilon>バックオフ遷移に置き換える"compact-CTC"、(2)WFSTコンポジションで使用する際に空白>自己ループのみを追加する"minimal-CTC"、(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
論文 参考訳(メタデータ) (2021-10-06T23:00:15Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム
我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。
次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文 参考訳(メタデータ) (2020-10-26T01:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。