論文の概要: UniCoM: A Universal Code-Switching Speech Generator
- arxiv url: http://arxiv.org/abs/2508.15244v1
- Date: Thu, 21 Aug 2025 05:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.191154
- Title: UniCoM: A Universal Code-Switching Speech Generator
- Title(参考訳): UniCoM:Universal Code-Switching Speech Generator
- Authors: Sangmin Lee, Woojin Chung, Seyun Um, Hong-Goo Kang,
- Abstract要約: Code-Switching (CS) は、1つの話者の発話に含まれる2つ以上の言語間の交替であり、現実世界の会話では一般的である。
高品質で自然なCSサンプルを生成するための新しいパイプラインであるUniCoM(UniCoM)を提案する。
自動音声認識(ASR)と音声テキスト翻訳(S2TT)のための多言語CSコーパスであるコードスイッチングFLEURS(CS-FLEURS)を構築する。
- 参考スコア(独自算出の注目度): 19.893429976826464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS), the alternation between two or more languages within a single speaker's utterances, is common in real-world conversations and poses significant challenges for multilingual speech technology. However, systems capable of handling this phenomenon remain underexplored, primarily due to the scarcity of suitable datasets. To resolve this issue, we propose Universal Code-Mixer (UniCoM), a novel pipeline for generating high-quality, natural CS samples without altering sentence semantics. Our approach utilizes an algorithm we call Substituting WORDs with Synonyms (SWORDS), which generates CS speech by replacing selected words with their translations while considering their parts of speech. Using UniCoM, we construct Code-Switching FLEURS (CS-FLEURS), a multilingual CS corpus designed for automatic speech recognition (ASR) and speech-to-text translation (S2TT). Experimental results show that CS-FLEURS achieves high intelligibility and naturalness, performing comparably to existing datasets on both objective and subjective metrics. We expect our approach to advance CS speech technology and enable more inclusive multilingual systems.
- Abstract(参考訳): 1つの話者の発話における2つ以上の言語間の交替であるコードスイッチング(CS)は、現実世界の会話で一般的であり、多言語音声技術において重要な課題を提起する。
しかし、この現象に対処できるシステムは、主に適切なデータセットが不足しているため、まだ探索されていない。
この問題を解決するために,文の意味論を変えることなく,高品質で自然なCSサンプルを生成するためのパイプラインであるUniCoMを提案する。
提案手法では,代用WORD (Substituting WORDs with Synonyms, SWORDS) と呼ばれるアルゴリズムを用いて,選択した単語を翻訳に置き換えてCS音声を生成する。
UniCoM を用いて,自動音声認識 (ASR) と音声テキスト翻訳 (S2TT) 用に設計された多言語CSコーパスである Code-Switching FLEURS (CS-FLEURS) を構築した。
実験の結果,CS-FLEURSは,主観的および主観的両方の指標に基づいて,既存のデータセットに相容れない高い知性と自然性を達成していることがわかった。
我々はCS音声技術の進歩と、より包括的な多言語システムの実現に向けたアプローチを期待する。
関連論文リスト
- Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Cross-Modal Mutual Learning for Cued Speech Recognition [10.225972737967249]
マルチモーダルインタラクションを促進するためのトランスフォーマーに基づく相互学習フレームワークを提案する。
我々のモデルは、モダリティ固有の異なるモダリティの情報に、モダリティ不変のコードブックを通らせるよう強制する。
中国語のための大規模多話者CSデータセットを新たに構築する。
論文 参考訳(メタデータ) (2022-12-02T10:45:33Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - End-to-End Speech Translation for Code Switched Speech [13.97982457879585]
コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
論文 参考訳(メタデータ) (2022-04-11T13:25:30Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。