論文の概要: SFMS-ALR: Script-First Multilingual Speech Synthesis with Adaptive Locale Resolution
- arxiv url: http://arxiv.org/abs/2510.25178v1
- Date: Mon, 27 Oct 2025 21:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 18:06:02.022365
- Title: SFMS-ALR: Script-First Multilingual Speech Synthesis with Adaptive Locale Resolution
- Title(参考訳): SFMS-ALR:適応局所分解能を用いたスクリプトファースト多言語音声合成
- Authors: Dharma Teja Donepudi,
- Abstract要約: 文内多言語音声合成 (code-switching TTS) は、急激な言語シフト、様々なスクリプト、言語間の不一致の韻律による大きな課題である。
本稿では,適応的局所分解を用いたスクリプトファースト多言語合成(SFMS-ALR)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intra-sentence multilingual speech synthesis (code-switching TTS) remains a major challenge due to abrupt language shifts, varied scripts, and mismatched prosody between languages. Conventional TTS systems are typically monolingual and fail to produce natural, intelligible speech in mixed-language contexts. We introduce Script-First Multilingual Synthesis with Adaptive Locale Resolution (SFMS-ALR), an engine-agnostic framework for fluent, real-time code-switched speech generation. SFMS-ALR segments input text by Unicode script, applies adaptive language identification to determine each segment's language and locale, and normalizes prosody using sentiment-aware adjustments to preserve expressive continuity across languages. The algorithm generates a unified SSML representation with appropriate "lang" or "voice" spans and synthesizes the utterance in a single TTS request. Unlike end-to-end multilingual models, SFMS-ALR requires no retraining and integrates seamlessly with existing voices from Google, Apple, Amazon, and other providers. Comparative analysis with data-driven pipelines such as Unicom and Mask LID demonstrates SFMS-ALR's flexibility, interpretability, and immediate deployability. The framework establishes a modular baseline for high-quality, engine-independent multilingual TTS and outlines evaluation strategies for intelligibility, naturalness, and user preference.
- Abstract(参考訳): 文内多言語音声合成 (code-switching TTS) は、急激な言語シフト、様々なスクリプト、言語間の不一致の韻律による大きな課題である。
従来のTSシステムは典型的には単言語であり、混合言語文脈において自然な、理解不能な音声を生成することができない。
本稿では,適応的局所分解を用いたスクリプトファースト多言語合成(SFMS-ALR)を提案する。
SFMS-ALRは、Unicodeスクリプトによる入力テキストを抽出し、各セグメントの言語とローカライズを決定するために適応言語識別を適用し、感情認識調整を用いて韻律を正規化し、言語間の表現的連続性を維持する。
このアルゴリズムは、適切な"言語"または"声"の幅を持つ統一SSML表現を生成し、単一のTSリクエストで発話を合成する。
エンドツーエンドのマルチ言語モデルとは異なり、SFMS-ALRは再トレーニングを必要とせず、Google、Apple、Amazon、その他のプロバイダの既存の音声とシームレスに統合する。
UnicomやMask LIDといったデータ駆動パイプラインとの比較分析は、SFMS-ALRの柔軟性、解釈可能性、即時デプロイ性を示している。
このフレームワークは、高品質でエンジンに依存しない多言語TSのためのモジュラーベースラインを確立し、インテリジェンス、自然性、ユーザ嗜好の評価戦略を概説する。
関連論文リスト
- PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration [25.693176812512196]
正書法統一とLAMA-UT(Language-Agnostic Multilingual ASR Pipeline)による言語に依存しないASRパイプラインを提案する。
LAMA-UTは、最小限のデータ量でトレーニングされた最先端モデルのパフォーマンスに適合しながら、言語固有のモジュールなしで動作します。
パイプラインはWhisperと比較して45%の相対誤差低減率を実現し,MMSと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-19T10:39:08Z) - Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora [13.891322931352649]
本稿では,CS-LLM(Code-Switched Large Language Model)を提案する。
具体的には、多言語音声認識と合成タスクにより、LLMの多言語音声処理能力を向上することから始める。
我々は,CS TTS 能力を改善した LLM を装備するために,異なる単言語音声コーパスから単語を分割・分割する効果的なコードスイッチング(CS)データ構築戦略を開発した。
論文 参考訳(メタデータ) (2024-09-17T08:11:07Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Enhancing Cross-lingual Natural Language Inference by Soft Prompting
with Multilingual Verbalizer [52.46740830977898]
言語間自然言語推論は言語間言語理解の基本的な問題である。
我々は,XNLIのためのマルチリンガル・バーバリザ(SoftMV)を用いたソフトプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:31:29Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。