論文の概要: Voice Mapping of Text-to-Speech Systems: A Metric-Based Approach for Voice Quality Assessment
- arxiv url: http://arxiv.org/abs/2605.00861v1
- Date: Tue, 21 Apr 2026 10:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.475884
- Title: Voice Mapping of Text-to-Speech Systems: A Metric-Based Approach for Voice Quality Assessment
- Title(参考訳): テキスト音声合成システムにおける音声マッピング : 音質評価のためのメトリクスに基づくアプローチ
- Authors: Huanchen Cai, Sten Ternström,
- Abstract要約: 本研究では,TTS合成品質評価フレームワークとしての音声マッピングについて検討した。
本稿では,Merlin,Tacotron 2,Transformer TTS,FastSpeech 2,Glow-TTS,VITSの6種類のTSモデルについて検討した。
- 参考スコア(独自算出の注目度): 0.4583541422554718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates voice mapping as an evaluation framework for text-to-speech (TTS) synthesis quality. The study analyzes six TTS models, including historical and recent ones. The metrics are crest factor, spectrum balance, and cepstral peak prominence (CPPs). We investigated 6 influential TTS models: Merlin, Tacotron 2, Transformer TTS, FastSpeech 2, Glow-TTS, and VITS. The results demonstrate that voice range serves as a primary indicator of model capability, with VITS showing the largest range among tested models. Glow-TTS exhibited superior performance in soft phonation, indicated by higher spectrum balance, despite limited voice range. The results showed that the CPPs values between 7-8 dB indicate natural voice quality, while with CPPs exceeding 10 dB, the speech tends to sound robotic. These findings underscore the need for voice mapping to evaluate vocal effort, and capture how TTS systems handle voice dynamic and expressiveness.
- Abstract(参考訳): 本研究では,TTS合成品質評価フレームワークとしての音声マッピングについて検討した。
この研究は、歴史的および最近のものを含む6つのTSモデルを分析する。
測定基準は、ピークファクター、スペクトルバランス、ケプストラムピークプロミネンス(CPPs)である。
本稿では,Merlin,Tacotron 2,Transformer TTS,FastSpeech 2,Glow-TTS,VITSの6種類のTSモデルについて検討した。
実験結果から, 音声域がモデル能力の指標となることを示すとともに, VITSはテスト対象モデルの中で最大範囲を示した。
Glow-TTSは,声域が限られているにもかかわらず,高いスペクトルバランスを呈する軟らかい発声において優れた性能を示した。
その結果,CPPsは7~8dB,CPPsは10dBを超えるとロボットに聞こえる傾向がみられた。
これらの知見は、声の努力を評価するための音声マッピングの必要性を浮き彫りにし、TTSシステムが声のダイナミックさと表現性をどのように扱うかを捉えた。
関連論文リスト
- TTS-1 Technical Report [0.9134656817901009]
Inworld TTS-1は、Transformerベースの2つの自動回帰テキスト音声モデルのセットである。
TTS-1とTS-1-Maxは低レイテンシで48kHzの高分解能音声を生成することができる。
私たちはまた、MITライセンスの下でトレーニングとモデリングのコードをオープンソースにしています。
論文 参考訳(メタデータ) (2025-07-22T23:57:11Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice
Conversion for everyone [0.7927630381442314]
YourTTSは、ゼロショットマルチスピーカーTSのタスクに多言語アプローチのパワーをもたらす。
我々は、VCTKデータセット上のゼロショット音声変換において、ゼロショットマルチスピーカTSとSOTAに匹敵する結果を得る。
1分未満の音声でYourTTSモデルを微調整し、最先端の結果を音声に類似し、妥当な品質で達成することが可能である。
論文 参考訳(メタデータ) (2021-12-04T19:50:29Z) - Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis [21.904558308567122]
本研究の目的は,多話者テキスト音声合成の出力品質に異なる話者がどう貢献するかを特徴付けることである。
我々は、人間の平均評価スコア(MOS)に基づいてトレーニングされたニューラルネットワーク(NN)を使用して、TSの品質を自動的に評価する。
論文 参考訳(メタデータ) (2020-02-28T10:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。