論文の概要: Zero-Shot Text-to-Speech for Vietnamese
- arxiv url: http://arxiv.org/abs/2506.01322v1
- Date: Mon, 02 Jun 2025 05:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.037027
- Title: Zero-Shot Text-to-Speech for Vietnamese
- Title(参考訳): ベトナム語におけるゼロショットテキスト音声
- Authors: Thi Vu, Linh The Nguyen, Dat Quoc Nguyen,
- Abstract要約: PhoAudiobookはベトナム語による音声合成のための991時間の高品質なオーディオを含むデータセットである。
我々は、VALL-E、VoiceCraft、XTTS-V2の3つの主要なゼロショットTSモデルについて実験を行った。
- 参考スコア(独自算出の注目度): 12.75681261458148
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces PhoAudiobook, a newly curated dataset comprising 941 hours of high-quality audio for Vietnamese text-to-speech. Using PhoAudiobook, we conduct experiments on three leading zero-shot TTS models: VALL-E, VoiceCraft, and XTTS-V2. Our findings demonstrate that PhoAudiobook consistently enhances model performance across various metrics. Moreover, VALL-E and VoiceCraft exhibit superior performance in synthesizing short sentences, highlighting their robustness in handling diverse linguistic contexts. We publicly release PhoAudiobook to facilitate further research and development in Vietnamese text-to-speech.
- Abstract(参考訳): PhoAudiobookはベトナム語による音声合成のための高品質な音声を991時間提供した,新たにキュレートされたデータセットである。
PhoAudiobookを用いて、VALL-E、VoiceCraft、XTTS-V2の3つの主要なゼロショットTSモデルの実験を行う。
以上の結果から,PhoAudiobookは様々な指標のモデル性能を一貫して向上させることがわかった。
さらに、VALL-EとVoiceCraftは短い文を合成する上で優れたパフォーマンスを示し、多様な言語文脈を扱う際の堅牢性を強調している。
PhoAudiobookを公開し、ベトナム語のテキスト音声におけるさらなる研究と開発を促進する。
関連論文リスト
- CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - PhoWhisper: Automatic Speech Recognition for Vietnamese [12.75681261458148]
ベトナム語自動音声認識のためのPhoWhisperを5つのバージョンで導入する。
PhoWhisperの堅牢性は、844時間のデータセット上でWhisperモデルを微調整することで達成される。
ベトナムのASRデータセットのベンチマークにおいて,PhoWhisperの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-27T13:10:06Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale [58.46845567087977]
Voiceboxは、大規模音声のための最も多用途なテキスト誘導生成モデルである。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%のワードエラー率)とオーディオの類似性(0.580対0.681)は20倍高速である。
論文 参考訳(メタデータ) (2023-06-23T16:23:24Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining
and Speech Translation [21.622039537743607]
本稿では,FAT-MLM(Fused Acoustic and Text Masked Language Model)を提案する。
3つの翻訳方向の実験により,FAT-MLMから微調整した音声翻訳モデルが翻訳品質を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-02-10T22:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。