Fugu-MT 論文翻訳(概要): Reducing Spelling Inconsistencies in Code-Switching ASR using Contextualized CTC Loss

論文の概要: Reducing Spelling Inconsistencies in Code-Switching ASR using Contextualized CTC Loss

arxiv url: http://arxiv.org/abs/2005.07920v3
Date: Tue, 22 Jun 2021 18:21:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 13:41:11.590921
Title: Reducing Spelling Inconsistencies in Code-Switching ASR using Contextualized CTC Loss
Title（参考訳）: 文脈化CTC損失を用いたコードスイッチングASRにおけるスペル不整合の低減
Authors: Burin Naowarat, Thananchai Kongthaworn, Korrawe Karunratanakul, Sheng Hui Wu, Ekapol Chuangsuwanich
Abstract要約: 本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。 CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。 CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
参考スコア（独自算出の注目度）: 5.707652271634435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code-Switching (CS) remains a challenge for Automatic Speech Recognition (ASR), especially character-based models. With the combined choice of characters from multiple languages, the outcome from character-based models suffers from phoneme duplication, resulting in language-inconsistent spellings. We propose Contextualized Connectionist Temporal Classification (CCTC) loss to encourage spelling consistencies of a character-based non-autoregressive ASR which allows for faster inference. The CCTC loss conditions the main prediction on the predicted contexts to ensure language consistency in the spellings. In contrast to existing CTC-based approaches, CCTC loss does not require frame-level alignments, since the context ground truth is obtained from the model's estimated path. Compared to the same model trained with regular CTC loss, our method consistently improved the ASR performance on both CS and monolingual corpora.
Abstract（参考訳）: コードスイッチング(CS)は、特に文字ベースのモデルにおいて、自動音声認識(ASR)の課題である。複数の言語から文字を選択することで、文字ベースのモデルの結果は音素重複に悩まされ、言語に一貫性のない綴りになる。我々は,キャラクタベース非自己回帰型asrの綴り構成性を促進するために,文脈化接続主義時相分類(cctc)の損失を提案する。 CCTC損失条件は、スペル中の言語一貫性を確保するために、予測されたコンテキストに対する主要な予測である。既存のCTCベースのアプローチとは対照的に、CCTCの損失はモデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。 CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。

関連論文リスト

SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。 SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文参考訳（メタデータ） (2024-11-24T14:21:35Z)
Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文参考訳（メタデータ） (2024-09-24T21:42:25Z)
C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。 C-LLMは既存の方法よりも平均10%改善する。
論文参考訳（メタデータ） (2024-06-24T11:16:31Z)
Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文参考訳（メタデータ） (2024-06-11T09:37:52Z)
Self-distillation Regularized Connectionist Temporal Classification Loss for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。 CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文参考訳（メタデータ） (2023-08-17T06:32:57Z)
CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。 MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文参考訳（メタデータ） (2023-05-27T03:54:09Z)
CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文参考訳（メタデータ） (2022-10-11T07:13:50Z)
Investigating the Reordering Capability in CTC-based Non-Autoregressive End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。 CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文参考訳（メタデータ） (2021-05-11T07:48:45Z)
Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文参考訳（メタデータ） (2021-02-05T15:01:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。