論文の概要: TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition
- arxiv url: http://arxiv.org/abs/2509.05983v1
- Date: Sun, 07 Sep 2025 09:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.803873
- Title: TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition
- Title(参考訳): TSPC: コードスイッチングベトナム英語音声認識のための2段階音素中心アーキテクチャ
- Authors: Minh N. H. Nguyen, Anh Nguyen Tran, Dung Truong Dinh, Nam Van Vo,
- Abstract要約: コードスイッチング(CS)は、一般的な自動音声認識(ASR)システムにとって重要な課題である。
既存の手法は、CSのシナリオに固有の微妙な音韻的変化を捉えるのに失敗することが多い。
2段階音素中心モデル(TSPC)であるベトナム英語CS ASRの新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.855801641444342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS) presents a significant challenge for general Auto-Speech Recognition (ASR) systems. Existing methods often fail to capture the subtle phonological shifts inherent in CS scenarios. The challenge is particularly difficult for language pairs like Vietnamese and English, where both distinct phonological features and the ambiguity arising from similar sound recognition are present. In this paper, we propose a novel architecture for Vietnamese-English CS ASR, a Two-Stage Phoneme-Centric model (TSPC). The TSPC employs a phoneme-centric approach, built upon an extended Vietnamese phoneme set as an intermediate representation to facilitate mixed-lingual modeling. Experimental results demonstrate that TSPC consistently outperforms existing baselines, including PhoWhisper-base, in Vietnamese-English CS ASR, achieving a significantly lower word error rate of 20.8\% with reduced training resources. Furthermore, the phonetic-based two-stage architecture enables phoneme adaptation and language conversion to enhance ASR performance in complex CS Vietnamese-English ASR scenarios.
- Abstract(参考訳): コードスイッチング(CS)は、一般的な自動音声認識(ASR)システムにとって重要な課題である。
既存の手法は、CSのシナリオに固有の微妙な音韻的変化を捉えるのに失敗することが多い。
この課題はベトナム語と英語のような言語ペアにとって特に困難であり、音韻学的特徴と類似した音声認識から生じるあいまいさの両方が存在する。
本稿では,2段階音素中心モデル(TSPC)であるベトナム・英語CS ASRのアーキテクチャを提案する。
TSPCは、混合言語モデリングを容易にするための中間表現としてベトナム語音素セットを拡張した音素中心のアプローチを採用している。
実験の結果,TSPC はベトナム・英語 CS ASR において PhoWhisper-base などの既存のベースラインを一貫して上回り,トレーニングリソースの削減とともに単語誤り率を 20.8\% に低下させることがわかった。
さらに、音素ベースの2段階アーキテクチャにより、複雑なCSベトナム語ASRシナリオにおける音素適応と言語変換が可能となり、ASR性能が向上する。
関連論文リスト
- Optimizing ASR for Catalan-Spanish Code-Switching: A Comparative Analysis of Methodologies [9.224033819309708]
2つ以上の言語を交互に使用するコードスイッチング(CS)は、訓練データ不足と言語的類似性のため、自動音声認識(ASR)に挑戦する。
1)合成CSデータの生成,(2)モノリンガル音声の連結,(3)言語トークンを用いた実CSデータの利用,の3つの戦略を探索することにより,カタルーニャ・スペインのCSのためのASRを改善する。
その結果,合成CSデータの質素な量と支配的な言語トークンを組み合わせれば,最高の転写性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-07-18T12:54:41Z) - LLM-based phoneme-to-grapheme for phoneme-based speech recognition [11.552927239284582]
音素自動音声認識(ASR)のための音素間符号化(LLM-P2G)を提案する。
実験の結果, LLM-P2G はポーランド語とドイツ語の交叉型 ASR において, WER の相対減少率 3.6% と 6.9% でWFST 系よりも優れていた。
論文 参考訳(メタデータ) (2025-06-05T07:35:55Z) - UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation [34.57020177838285]
Cued Speech (CS) は、手書きによる唇読取を強化し、聴覚障害者の正確な音声知覚を支援する視覚的音声手がかりを提供する。
CSビデオ音声生成(CSV2S)の課題は,CS動画を音声信号に変換することである。
中間テキストに頼ることなくCSビデオから直接音声を生成する最初のCSV2SであるUniCUEを提案する。
論文 参考訳(メタデータ) (2025-06-04T16:26:49Z) - AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR [1.8533128809847572]
文内コードスイッチングは,音声認識システムにおいて重要な課題である。
AdaCSは、適応バイアスアテンションモジュールをエンコーダ・デコーダネットワークに統合する正規化モデルである。
実験の結果,AdaCSはベトナムのCS ASR正規化において,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-13T07:27:00Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。