論文の概要: Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss
- arxiv url: http://arxiv.org/abs/2005.07920v3
- Date: Tue, 22 Jun 2021 18:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:41:11.590921
- Title: Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss
- Title(参考訳): 文脈化CTC損失を用いたコードスイッチングASRにおけるスペル不整合の低減
- Authors: Burin Naowarat, Thananchai Kongthaworn, Korrawe Karunratanakul, Sheng
Hui Wu, Ekapol Chuangsuwanich
- Abstract要約: 本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
- 参考スコア(独自算出の注目度): 5.707652271634435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-Switching (CS) remains a challenge for Automatic Speech Recognition
(ASR), especially character-based models. With the combined choice of
characters from multiple languages, the outcome from character-based models
suffers from phoneme duplication, resulting in language-inconsistent spellings.
We propose Contextualized Connectionist Temporal Classification (CCTC) loss to
encourage spelling consistencies of a character-based non-autoregressive ASR
which allows for faster inference. The CCTC loss conditions the main prediction
on the predicted contexts to ensure language consistency in the spellings. In
contrast to existing CTC-based approaches, CCTC loss does not require
frame-level alignments, since the context ground truth is obtained from the
model's estimated path. Compared to the same model trained with regular CTC
loss, our method consistently improved the ASR performance on both CS and
monolingual corpora.
- Abstract(参考訳): コードスイッチング(CS)は、特に文字ベースのモデルにおいて、自動音声認識(ASR)の課題である。
複数の言語から文字を選択することで、文字ベースのモデルの結果は音素重複に悩まされ、言語に一貫性のない綴りになる。
我々は,キャラクタベース非自己回帰型asrの綴り構成性を促進するために,文脈化接続主義時相分類(cctc)の損失を提案する。
CCTC損失条件は、スペル中の言語一貫性を確保するために、予測されたコンテキストに対する主要な予測である。
既存のCTCベースのアプローチとは対照的に、CCTCの損失はモデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
関連論文リスト
- Unimodal Aggregation for CTC-based Speech Recognition [8.99170798988359]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Multi-sequence Intermediate Conditioning for CTC-based ASR [19.09510518419768]
日本語やマンダリンなど数千文字の言語では、これらすべての文字をモデル化するのはデータ不足のため問題となる。
自己条件接続型時間分類手法を用いて,文字と音節を明示的に相互作用するマルチタスク学習モデルを提案する。
日本語とマンダリンのデータセットを用いた実験結果から,提案手法は従来のマルチタスク方式と自己条件CTC方式よりも優れていた。
論文 参考訳(メタデータ) (2022-04-01T02:51:22Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。