論文の概要: Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2
- arxiv url: http://arxiv.org/abs/2505.17320v1
- Date: Thu, 22 May 2025 22:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.713875
- Title: Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2
- Title(参考訳): VITS と Style-BERT-VITS2 による日本語文字音声のベンチマーク
- Authors: Zackary Rackauckas, Julia Hirschberg,
- Abstract要約: 本稿では2つのオープンソーステキスト音声モデル--VITS と Style-BERT-VITS2 JP Extra-on in- domain, character-driven Japanese speech をベンチマークする。
自然性(平均的意見と平均的意見スコア)、知性(単語誤り率)、話者整合性(話者整合性)のモデルを評価する。
SBV2JEは、高い計算要求にもかかわらず、言語学習や文字対話生成のようなアプリケーションに有効であることを示す。
- 参考スコア(独自算出の注目度): 4.740589102992697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthesizing expressive Japanese character speech poses unique challenges due to pitch-accent sensitivity and stylistic variability. This paper benchmarks two open-source text-to-speech models--VITS and Style-BERT-VITS2 JP Extra (SBV2JE)--on in-domain, character-driven Japanese speech. Using three character-specific datasets, we evaluate models across naturalness (mean opinion and comparative mean opinion score), intelligibility (word error rate), and speaker consistency. SBV2JE matches human ground truth in naturalness (MOS 4.37 vs. 4.38), achieves lower WER, and shows slight preference in CMOS. Enhanced by pitch-accent controls and a WavLM-based discriminator, SBV2JE proves effective for applications like language learning and character dialogue generation, despite higher computational demands.
- Abstract(参考訳): 表現力のある日本語の文字音声の合成は、ピッチアクセントの感度とスタイリスティックな可変性によって独特な課題を生んでいる。
本稿では,2つのオープンソーステキスト音声モデル--VITS と Style-BERT-VITS2 JP Extra (SBV2JE) のベンチマークを行う。
3つの特徴特化データセットを用いて、自然性(平均的意見と平均的意見スコア)、知能性(単語誤り率)、話者整合性(話者整合性)のモデルを評価する。
SBV2JEは自然界における人間の真実と一致する(MOS 4.37 vs. 4.38)。
ピッチアクセント制御とWavLMベースの識別器によって強化されたSBV2JEは、高い計算要求にもかかわらず、言語学習や文字対話生成のようなアプリケーションに有効であることを示す。
関連論文リスト
- Efficient Adaptation of Multilingual Models for Japanese ASR [0.0]
本研究では,多言語ASR(Automatic Speech Recognition)モデル,特にOpenAIのWhisper-Tinyを用いて,日本語のパフォーマンス向上について検討する。
日本語固有のデータセットとローランド適応(LoRA)とエンドツーエンド(E2E)トレーニングを使用して、Whisper-Tinyを微調整して、このギャップを埋めた。
その結果,Whisper-Tiny のキャラクタエラーレート (CER) は LoRA では 32.7 から 20.8 に減少し,エンドツーエンドのファインチューニングでは 14.7 に低下し,Whisper-Base の CER は 20。
論文 参考訳(メタデータ) (2024-12-14T06:32:16Z) - Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities [9.473861847584843]
本稿では,MMS(Massively Multilingual Speech)とWhisper(Whisper)という,最先端の音声認識モデルについて述べる。
インドネシア語音声データを様々な変動群で書き起こすモデルの予測能力について検討する。
論文 参考訳(メタデータ) (2024-10-11T14:07:07Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion
Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。
我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文 参考訳(メタデータ) (2023-09-19T03:52:01Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。