論文の概要: Optimizing Multilingual Text-To-Speech with Accents & Emotions
- arxiv url: http://arxiv.org/abs/2506.16310v1
- Date: Thu, 19 Jun 2025 13:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.090003
- Title: Optimizing Multilingual Text-To-Speech with Accents & Emotions
- Title(参考訳): アクセントと感情による多言語テキスト音声の最適化
- Authors: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey,
- Abstract要約: 本稿では,アクセントを付加した新しいTSアーキテクチャを提案する。
本稿では,言語固有の音素アライメント型エンコーダ-デコーダアーキテクチャを統合することで,Parler-TTSモデルを拡張した。
テストでは、アクセント精度が23.7%改善し、ネイティブリスナーによる感情認識精度が85.3%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: State-of-the-art text-to-speech (TTS) systems realize high naturalness in monolingual environments, synthesizing speech with correct multilingual accents (especially for Indic languages) and context-relevant emotions still poses difficulty owing to cultural nuance discrepancies in current frameworks. This paper introduces a new TTS architecture integrating accent along with preserving transliteration with multi-scale emotion modelling, in particularly tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS model by integrating A language-specific phoneme alignment hybrid encoder-decoder architecture, and culture-sensitive emotion embedding layers trained on native speaker corpora, as well as incorporating a dynamic accent code switching with residual vector quantization. Quantitative tests demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system is that it can mix code in real time - generating statements such as "Namaste, let's talk about <Hindi phrase>" with uninterrupted accent shifts while preserving emotional consistency. Subjective evaluation with 200 users reported a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than existing multilingual systems (p<0.01). This research makes cross-lingual synthesis more feasible by showcasing scalable accent-emotion disentanglement, with direct application in South Asian EdTech and accessibility software.
- Abstract(参考訳): 最新のテクスト・トゥ・音声(TTS)システムは、モノリンガル環境における高い自然性を実現し、正しい多言語アクセント(特にIndic言語)による音声合成と文脈関連感情は、現在のフレームワークにおける文化的ニュアンスの不一致により依然として困難である。
本稿では,特にヒンディー語やインド英語のアクセントに合わせて,アクセントを付加した新しいTSアーキテクチャを提案する。
提案手法は,言語固有の音素アライメント・ハイブリッドエンコーダ・デコーダアーキテクチャと,ネイティブ話者コーパスで訓練された文化に敏感な感情埋め込み層と,残差ベクトル量子化による動的アクセントコードスイッチングを組み込むことにより,Parler-TTSモデルを拡張した。
定量的テストでは、アクセント精度が23.7%向上(単語誤り率の15.4%から11.8%)、ネイティブリスナーによる85.3%の感情認識精度がMETTSおよびVECL-TTSベースラインを上回っている。
Namaste, we's talk about <Hindi phrase>" のようなステートメントを,感情的な一貫性を維持しながら中断しないアクセントシフトで生成する。
200名を対象にした主観評価では, 文化的正当性は4.2/5の平均世論スコア(MOS)であり, 既存の多言語システムよりも優れていた(p<0.01)。
本研究は,東南アジアのEdTechやアクセシビリティソフトウェアに直接応用した,スケーラブルなアクセント・感情の絡み合いを示すことで,言語間合成をより実現可能にする。
関連論文リスト
- RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations [15.198945496921914]
本稿では,リッチテキスト記述を伴う大規模音声データセットであるRASMALAIを紹介する。
IndicParlerTTSは,インド語に対する初のオープンソースのテキスト記述誘導型TTSである。
論文 参考訳(メタデータ) (2025-05-24T09:16:14Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。