論文の概要: Improving French Synthetic Speech Quality via SSML Prosody Control
- arxiv url: http://arxiv.org/abs/2508.17494v1
- Date: Sun, 24 Aug 2025 19:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.552519
- Title: Improving French Synthetic Speech Quality via SSML Prosody Control
- Title(参考訳): SSML韻律制御によるフランス語合成音声品質の向上
- Authors: Nassima Ould Ouali, Awais Hussain Sani, Ruben Bueno, Jonah Dauvet, Tim Luka Horstmann, Eric Moulines,
- Abstract要約: 本稿では、音声言語マークアップタグをフランス語テキストに挿入し、ピッチ、発話速度、ボリューム、停止時間を制御する最初のエンドツーエンドパイプラインを提案する。
フランスの14時間ポッドキャストコーパスで評価し,F1のブレーク配置を達成し,ピッチ,レート,ボリュームの平均絶対誤差を25~40%削減する。
- 参考スコア(独自算出の注目度): 17.211517793654703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances, synthetic voices often lack expressiveness due to limited prosody control in commercial text-to-speech (TTS) systems. We introduce the first end-to-end pipeline that inserts Speech Synthesis Markup Language (SSML) tags into French text to control pitch, speaking rate, volume, and pause duration. We employ a cascaded architecture with two QLoRA-fine-tuned Qwen 2.5-7B models: one predicts phrase-break positions and the other performs regression on prosodic targets, generating commercial TTS-compatible SSML markup. Evaluated on a 14-hour French podcast corpus, our method achieves 99.2% F1 for break placement and reduces mean absolute error on pitch, rate, and volume by 25-40% compared with prompting-only large language models (LLMs) and a BiLSTM baseline. In perceptual evaluation involving 18 participants across over 9 hours of synthesized audio, SSML-enhanced speech generated by our pipeline significantly improves naturalness, with the mean opinion score increasing from 3.20 to 3.87 (p < 0.005). Additionally, 15 of 18 listeners preferred our enhanced synthesis. These results demonstrate substantial progress in bridging the expressiveness gap between synthetic and natural French speech. Our code is publicly available at https://github.com/hi-paris/Prosody-Control-French-TTS.
- Abstract(参考訳): 近年の進歩にもかかわらず、合成音声は、商用音声合成システム(TTS)における韻律制御の制限により、表現力に欠けることが多い。
本稿では,音声合成マークアップ言語(SSML)タグをフランス語テキストに挿入し,ピッチ,発話速度,ボリューム,停止時間を制御する最初のエンドツーエンドパイプラインを提案する。
QLoRAを微調整した2つのQwen 2.5-7Bモデルを持つカスケードアーキテクチャを用いており、1つはフレーズブレーク位置を予測し、もう1つは韻律的目標に対して回帰を行い、商用TS互換のSSMLマークアップを生成する。
14時間のフランス語ポッドキャストコーパスで評価し, ブレークプレースに対する99.2%のF1を達成し, プロンプトのみの大規模言語モデル(LLM)やBiLSTMベースラインと比較して, ピッチ, レート, ボリュームの平均絶対誤差を25~40%削減する。
音声合成に9時間以上を費やした18人の参加者を対象とした知覚評価では, SSMLによる音声合成は自然度を有意に向上させ, 平均スコアは3.20から3.87 (p < 0.005) まで上昇した。
さらに, 聴取者18名中15名が, 改良された合成を好んだ。
これらの結果は, 合成音声と自然フランス語音声の表現率ギャップを橋渡しする過程において, 顕著な進展を示した。
私たちのコードはhttps://github.com/hi-paris/Prosody-Control- French-TTSで公開されています。
関連論文リスト
- Optimizing Multilingual Text-To-Speech with Accents & Emotions [0.0]
本稿では,アクセントを付加した新しいTSアーキテクチャを提案する。
本稿では,言語固有の音素アライメント型エンコーダ-デコーダアーキテクチャを統合することで,Parler-TTSモデルを拡張した。
テストでは、アクセント精度が23.7%改善し、ネイティブリスナーによる感情認識精度が85.3%向上した。
論文 参考訳(メタデータ) (2025-06-19T13:35:05Z) - Phonology-Guided Speech-to-Speech Translation for African Languages [2.7624021966289605]
音声合成のための韻律誘導フレームワーク(S2ST)を提案する。
Emphwithin-phylum言語対は30-40%低停止,3$times$以上のオンセット/オフセット相関を示した。
また、人間の判断と強く相関する3層無転写BLEUスイート(M1-M3)もリリースしています。
論文 参考訳(メタデータ) (2024-10-30T09:44:52Z) - TacoLM: GaTed Attention Equipped Codec Language Model are Efficient Zero-Shot Text to Speech Synthesizers [8.485772660435464]
我々は,新しいニューラルLM,すなわちTacoLMを導入する。
TacoLMは、トレーニングと推論効率を改善するために、ゲートアテンションメカニズムを導入している。
TacoLMは、VALL-Eと比較して、単語エラー率、話者類似度、平均評価スコアが90%少なく、5.2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-06-22T06:39:52Z) - Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation [4.048928915292716]
DiffuseSTは低遅延直接音声翻訳システムである。
タコトロン系シンセサイザーと新しい拡散型シンセサイザーを比較した。
論文 参考訳(メタデータ) (2024-06-14T17:55:55Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。