論文の概要: AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR
- arxiv url: http://arxiv.org/abs/2501.07102v1
- Date: Mon, 13 Jan 2025 07:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:06.925156
- Title: AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR
- Title(参考訳): AdaCS: コードスイッチングASRの適応正規化
- Authors: The Chuong Chu, Vu Tuan Dat Pham, Kien Dao, Hoang Nguyen, Quoc Hung Truong,
- Abstract要約: 文内コードスイッチングは,音声認識システムにおいて重要な課題である。
AdaCSは、適応バイアスアテンションモジュールをエンコーダ・デコーダネットワークに統合する正規化モデルである。
実験の結果,AdaCSはベトナムのCS ASR正規化において,従来の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.8533128809847572
- License:
- Abstract: Intra-sentential code-switching (CS) refers to the alternation between languages that happens within a single utterance and is a significant challenge for Automatic Speech Recognition (ASR) systems. For example, when a Vietnamese speaker uses foreign proper names or specialized terms within their speech. ASR systems often struggle to accurately transcribe intra-sentential CS due to their training on monolingual data and the unpredictable nature of CS. This issue is even more pronounced for low-resource languages, where limited data availability hinders the development of robust models. In this study, we propose AdaCS, a normalization model integrates an adaptive bias attention module (BAM) into encoder-decoder network. This novel approach provides a robust solution to CS ASR in unseen domains, thereby significantly enhancing our contribution to the field. By utilizing BAM to both identify and normalize CS phrases, AdaCS enhances its adaptive capabilities with a biased list of words provided during inference. Our method demonstrates impressive performance and the ability to handle unseen CS phrases across various domains. Experiments show that AdaCS outperforms previous state-of-the-art method on Vietnamese CS ASR normalization by considerable WER reduction of 56.2% and 36.8% on the two proposed test sets.
- Abstract(参考訳): CS(Intra-sentential code-switching)とは、1つの発話内で発生する言語間の交替であり、自動音声認識(ASR)システムにとって重要な課題である。
例えば、ベトナム語話者が、彼らのスピーチの中で外国の固有名や専門用語を使用する場合である。
ASRシステムは、モノリンガルデータと予測不可能なCSの性質に関するトレーニングのために、文内CSを正確に書き起こすのに苦労することが多い。
この問題は、データ可用性の制限が堅牢なモデルの開発を妨げる低リソース言語に対してさらに顕著である。
本研究では,アダプティブ・バイアス・アテンション・モジュール(BAM)をエンコーダ・デコーダネットワークに統合する正規化モデルであるAdaCSを提案する。
この新しいアプローチは、未確認領域におけるCS ASRに対する堅牢なソリューションを提供し、それによって、この分野への貢献を著しく高める。
BAMを利用してCS句を識別および正規化することで、AdaCSは推論中に提供される単語のバイアスリストによって適応性を高める。
提案手法は,様々な領域にまたがる未確認CSフレーズの処理能力と性能を示す。
実験により、AdaCSはベトナムのCS ASR正規化において、提案された2つのテストセットで56.2%と36.8%の大幅なWER削減により、従来の最先端の手法よりも優れていることが示された。
関連論文リスト
- Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding [27.499426765845705]
コードスイッチング自動音声認識(ASR)はアクセント、聴覚的類似性、シームレスな言語スイッチによる言語混乱による課題に直面している。
我々は,大規模多言語事前学習音声認識モデルであるWhisperを,エンコーダ部とデコーダ部の両方からCSに適応させる。
論文 参考訳(メタデータ) (2024-12-21T07:06:44Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores [14.150602045545108]
本稿では,2つのモノリンガルデータストアとゲートデータストア選択機構を利用する,kNN-CTCベースのコードスイッチングASR(Code-Switching ASR)フレームワークを提案する。
提案手法では,各フレームの復号化に適したデータストアを選択し,言語固有の情報をASRプロセスに確実に注入する。
論文 参考訳(メタデータ) (2024-06-06T07:39:17Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Code-Switching Text Augmentation for Multilingual Speech Processing [36.302629721413155]
音声コンテンツのコードスイッチングは、混合入力を処理するためにASRシステムに強制されている。
近年のASR研究は,多言語データを用いたCS現象の処理におけるE2E-ASRの優位性を示した。
音声CSテキストを人工的に生成し、異なる音声モジュールを改善するためのモノリンガルデータを強化する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:14:19Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。