論文の概要: Can we train ASR systems on Code-switch without real code-switch data? Case study for Singapore's languages
- arxiv url: http://arxiv.org/abs/2506.14177v1
- Date: Tue, 17 Jun 2025 04:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.328305
- Title: Can we train ASR systems on Code-switch without real code-switch data? Case study for Singapore's languages
- Title(参考訳): 実コードスウィッチデータを使わずにコードスウィッチ上でASRシステムを訓練できるか?シンガポールの言語を事例として
- Authors: Tuan Nguyen, Huy-Dat Tran,
- Abstract要約: Code-Switching (CS) は、ASRの難易度とコストのかかる書き起こしデータによる課題を提示する。
本研究では,自然パターンを模倣した合成CSデータを生成するためのフレーズレベルの混合手法を提案する。
- 参考スコア(独自算出の注目度): 3.263178944046948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS), common in multilingual settings, presents challenges for ASR due to scarce and costly transcribed data caused by linguistic complexity. This study investigates building CS-ASR using synthetic CS data. We propose a phrase-level mixing method to generate synthetic CS data that mimics natural patterns. Utilizing monolingual augmented with synthetic phrase-mixed CS data to fine-tune large pretrained ASR models (Whisper, MMS, SeamlessM4T). This paper focuses on three under-resourced Southeast Asian language pairs: Malay-English (BM-EN), Mandarin-Malay (ZH-BM), and Tamil-English (TA-EN), establishing a new comprehensive benchmark for CS-ASR to evaluate the performance of leading ASR models. Experimental results show that the proposed training strategy enhances ASR performance on monolingual and CS tests, with BM-EN showing highest gains, then TA-EN and ZH-BM. This finding offers a cost-effective approach for CS-ASR development, benefiting research and industry.
- Abstract(参考訳): コードスイッチング(CS)は、多言語設定で一般的なもので、言語的な複雑さに起因する少ないコストで書き起こされたデータのために、ASRの課題を提示する。
本研究では,合成CSデータを用いたCS-ASRの構築について検討する。
本研究では,自然パターンを模倣した合成CSデータを生成するためのフレーズレベルの混合手法を提案する。
合成フレーズ混合CSデータを用いたモノリンガル拡張を用いて、大規模事前訓練されたASRモデル(Whisper, MMS, SeamlessM4T)を微調整する。
本稿では,マラリー・イングリッシュ (BM-EN) とマンダリン・マレー (ZH-BM) とタミル・イングリッシュ (TA-EN) の3つの未公開の東南アジアの言語ペアに焦点を当て,CS-ASR の総合ベンチマークを作成し,主要な ASR モデルの性能を評価する。
実験結果から,単言語およびCSテストにおけるASR性能が向上し,BM-ENが最も向上し,TA-ENとZH-BMが向上した。
この発見は、CS-ASR開発にコスト効率の良いアプローチを提供し、研究と産業に恩恵をもたらす。
関連論文リスト
- KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Conditioning LLMs to Generate Code-Switched Text [21.240439045909724]
コードスイッチング(CS)は、自然言語処理(NLP)において依然として重要な課題である。
本稿では,大規模言語モデル(LLM)を用いたCSデータ生成手法を提案する。
そこで本研究では,自然なCS文をモノリンガル・イングリッシュに逆翻訳し,並列コーパスを用いて微調整し,モノリンガル・センテンスをCSに変換する手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T15:04:13Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - ConCSE: Unified Contrastive Learning and Augmentation for Code-Switched Embeddings [4.68732641979009]
本稿では、2つの言語が1つの発話の中で交わるコードスイッチング(CS)現象について検討する。
我々は、他の言語におけるCSの現在の等価制約(EC)理論は、部分的にしか英語と韓国のCSの複雑さを捉えていないことを強調した。
我々は,このような課題を緩和するために,英語と韓国のCSシナリオに適した新しいKoglishデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-28T11:27:21Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Code-Switching Text Augmentation for Multilingual Speech Processing [36.302629721413155]
音声コンテンツのコードスイッチングは、混合入力を処理するためにASRシステムに強制されている。
近年のASR研究は,多言語データを用いたCS現象の処理におけるE2E-ASRの優位性を示した。
音声CSテキストを人工的に生成し、異なる音声モジュールを改善するためのモノリンガルデータを強化する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:14:19Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - The ASRU 2019 Mandarin-English Code-Switching Speech Recognition
Challenge: Open Datasets, Tracks, Methods and Results [9.089285414356969]
本稿では,ASRU 2019 Mandarin- English code-switching speech recognition Challengeの設計と主な成果について述べる。
500時間 マンダリン音声データと240時間 マンダリン英語 CS データを参加者に公開する。
論文 参考訳(メタデータ) (2020-07-12T05:38:57Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。