論文の概要: Distilling the Knowledge of BERT for CTC-based ASR
- arxiv url: http://arxiv.org/abs/2209.02030v1
- Date: Mon, 5 Sep 2022 16:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:58:19.497595
- Title: Distilling the Knowledge of BERT for CTC-based ASR
- Title(参考訳): CTCに基づくASRにおけるBERTの知識の希薄化
- Authors: Hayato Futami, Hirofumi Inaguma, Masato Mimura, Shinsuke Sakai,
Tatsuya Kawahara
- Abstract要約: CTCに基づくASRのためのBERTの知識を抽出することを提案する。
CTCベースのASRは、トレーニング中にBERTの知識を学び、テスト中にBERTを使用しない。
提案手法は,推論速度を犠牲にすることなく,CTCに基づくASRの性能を向上することを示す。
- 参考スコア(独自算出の注目度): 38.345330002791606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Connectionist temporal classification (CTC) -based models are attractive
because of their fast inference in automatic speech recognition (ASR). Language
model (LM) integration approaches such as shallow fusion and rescoring can
improve the recognition accuracy of CTC-based ASR by taking advantage of the
knowledge in text corpora. However, they significantly slow down the inference
of CTC. In this study, we propose to distill the knowledge of BERT for
CTC-based ASR, extending our previous study for attention-based ASR. CTC-based
ASR learns the knowledge of BERT during training and does not use BERT during
testing, which maintains the fast inference of CTC. Different from
attention-based models, CTC-based models make frame-level predictions, so they
need to be aligned with token-level predictions of BERT for distillation. We
propose to obtain alignments by calculating the most plausible CTC paths.
Experimental evaluations on the Corpus of Spontaneous Japanese (CSJ) and
TED-LIUM2 show that our method improves the performance of CTC-based ASR
without the cost of inference speed.
- Abstract(参考訳): コネクショニスト時間分類(ctc)に基づくモデルは、自動音声認識(asr)の高速推論のために魅力的である。
浅い融合や再構成のような言語モデル(LM)の統合アプローチは、テキストコーパスの知識を活用することで、CTCベースのASRの認識精度を向上させることができる。
しかし、CTCの推測を著しく遅くする。
本研究では,CTCをベースとしたASRにおけるBERTの知識を抽出することを提案する。
CTCベースのASRは、トレーニング中にBERTの知識を学び、テスト中にBERTを使用しない。
注意に基づくモデルとは異なり、CTCベースのモデルはフレームレベルの予測を行うため、蒸留のためにBERTのトークンレベルの予測と整合する必要がある。
我々は,最も有効なCTC経路を計算してアライメントを得る。
自発日本語コーパス(CSJ)とTED-Lium2(TED-Lium2)を実験的に評価したところ,提案手法は推論速度のコストを伴わずにCTCベースのASRの性能を向上させることがわかった。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Less Peaky and More Accurate CTC Forced Alignment by Label Priors [57.48450905027108]
接続性時間分類(CTC)モデルはピーク出力分布を持つことが知られている。
本稿では, CTCのピーク動作を緩和し, 強制アライメント生成への適合性を向上させることを目的とする。
我々のCTCモデルはピーク後部を減らし、トークンのオフセットをより正確に予測することができる。
論文 参考訳(メタデータ) (2024-04-22T17:40:08Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - BERT Meets CTC: New Formulation of End-to-End Speech Recognition with
Pre-trained Masked Language Model [40.16332045057132]
BERT-CTCはエンドツーエンド音声認識の新しい定式化である。
BERTコンテキスト埋め込みによって得られる明示的な出力依存性を通じて言語知識を組み込む。
BERT-CTCは、話し方や言語の変化にまたがる従来のアプローチよりも改善されている。
論文 参考訳(メタデータ) (2022-10-29T18:19:44Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。