論文の概要: Intermediate Loss Regularization for CTC-based Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.03216v1
- Date: Fri, 5 Feb 2021 15:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 12:57:54.826018
- Title: Intermediate Loss Regularization for CTC-based Speech Recognition
- Title(参考訳): CTCに基づく音声認識における中間損失正規化
- Authors: Jaesong Lee, Shinji Watanabe
- Abstract要約: 本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
- 参考スコア(独自算出の注目度): 58.33721897180646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple and efficient auxiliary loss function for automatic
speech recognition (ASR) based on the connectionist temporal classification
(CTC) objective. The proposed objective, an intermediate CTC loss, is attached
to an intermediate layer in the CTC encoder network. This intermediate CTC loss
well regularizes CTC training and improves the performance requiring only small
modification of the code and small and no overhead during training and
inference, respectively. In addition, we propose to combine this intermediate
CTC loss with stochastic depth training, and apply this combination to a
recently proposed Conformer network. We evaluate the proposed method on various
corpora, reaching word error rate (WER) 9.9% on the WSJ corpus and character
error rate (CER) 5.2% on the AISHELL-1 corpus respectively, based on CTC greedy
search without a language model. Especially, the AISHELL-1 task is comparable
to other state-of-the-art ASR systems based on auto-regressive decoder with
beam search.
- Abstract(参考訳): 本論文では,コネクティスト時間分類(CTC)に基づく自動音声認識(ASR)のための簡便かつ効率的な補助損失関数を提案する。
提案された目的である中間CTC損失は、CTCエンコーダネットワーク内の中間層に接続される。
この中間的なCTC損失は、CTCトレーニングを順調に調整し、コードの小さな修正と、トレーニング中と推論中のオーバーヘッドの少なからぬパフォーマンスを改善する。
さらに,この中間CTC損失を確率的深度学習と組み合わせて,最近提案されたコンバータネットワークに適用することを提案する。
提案手法は,単語誤り率(wer)9.9%をwsjコーパスに,文字誤り率(cer)5.2%をaishell-1コーパスにそれぞれ到達し,ctc greedy searchを言語モデルなしで評価した。
特に、AISHELL-1タスクは、ビームサーチによる自動回帰デコーダに基づく他の最先端のASRシステムと同等です。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Improving CTC-AED model with integrated-CTC and auxiliary loss
regularization [6.214966465876013]
自動音声認識(ASR)において、コネクショニスト時間的分類とアテンションベースエンコーダデコーダ(AED)共同訓練が広く適用されている。
本稿では,2つの融合法,すなわち直接ロジット加算(DAL)と最大確率保存(PMP)を用いる。
我々は,CTCの寸法に適合するように注意結果を適応的にアフィン変換することで,次元整合性を実現する。
論文 参考訳(メタデータ) (2023-08-15T03:31:47Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - CTC Variations Through New WFST Topologies [79.94035631317395]
本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移をepsilon>バックオフ遷移に置き換える"compact-CTC"、(2)WFSTコンポジションで使用する際に空白>自己ループのみを追加する"minimal-CTC"、(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
論文 参考訳(メタデータ) (2021-10-06T23:00:15Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z) - Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム
我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。
次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文 参考訳(メタデータ) (2020-10-26T01:22:35Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。