Fugu-MT 論文翻訳(概要): VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka

論文の概要: VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka

arxiv url: http://arxiv.org/abs/2409.01548v1
Date: Tue, 3 Sep 2024 02:37:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 03:21:06.666998
Title: VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka
Title（参考訳）: VoxHakka:台湾・ハッカのための対話型多話者テキスト音声合成システム
Authors: Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang,
Abstract要約: VoxHakka(ヴォックスハッカ、VoxHakka)は、台湾の言語であるHakka向けに設計された音声合成システムである。 VoxHakkaは音声合成における自然性と精度,低リアルタイム化を実現している。
参考スコア（独自算出の注目度）: 10.784402571965867
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces VoxHakka, a text-to-speech (TTS) system designed for Taiwanese Hakka, a critically under-resourced language spoken in Taiwan. Leveraging the YourTTS framework, VoxHakka achieves high naturalness and accuracy and low real-time factor in speech synthesis while supporting six distinct Hakka dialects. This is achieved by training the model with dialect-specific data, allowing for the generation of speaker-aware Hakka speech. To address the scarcity of publicly available Hakka speech corpora, we employed a cost-effective approach utilizing a web scraping pipeline coupled with automatic speech recognition (ASR)-based data cleaning techniques. This process ensured the acquisition of a high-quality, multi-speaker, multi-dialect dataset suitable for TTS training. Subjective listening tests conducted using comparative mean opinion scores (CMOS) demonstrate that VoxHakka significantly outperforms existing publicly available Hakka TTS systems in terms of pronunciation accuracy, tone correctness, and overall naturalness. This work represents a significant advancement in Hakka language technology and provides a valuable resource for language preservation and revitalization efforts.
Abstract（参考訳）: 本稿では,台湾語話者を対象とした音声合成システムであるVoxHakkaを紹介する。 YourTTSフレームワークを活用することで、VoxHakkaは6つの異なるHakka方言をサポートしながら、音声合成において高い自然性、精度、低リアルタイム化を実現している。これは、方言固有のデータを用いてモデルを訓練し、話者対応のハッカ音声を生成することによって達成される。公開されているハッカ音声コーパスの不足に対処するために,Webスクレイピングパイプラインと自動音声認識(ASR)に基づくデータクリーニング技術を組み合わせた費用対効果のアプローチを採用した。このプロセスにより、TTSトレーニングに適した高品質でマルチスピーカー、マルチダイアレクトデータセットの取得が保証された。比較平均世論スコア(CMOS)を用いて行った主観的聴力テストでは、VoxHakkaは、発音精度、トーンの正確性、全体的な自然性において、既存の公開されているHakka TTSシステムよりも著しく優れていた。この研究は、ハッカ語技術の大幅な進歩を示し、言語保存と再生のための貴重な資源を提供する。

関連論文リスト

WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing [26.82255620167095]
WenetSpeech-Chuanは、私たちの小説『Chuan-Pipeline』で作られた1万時間の注釈付きコーパスです。また、手作業による手作業による書き起こしによる高品質なASRとTSベンチマークであるWenetSpeech-Chuan-Evalもリリースしています。実験によると、WnetSpeech-Chuanでトレーニングされたモデルは、オープンソースシステム間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-22T16:44:00Z)
A2TTS: TTS for Low Resource Indian Languages [16.782842482372427]
未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
論文参考訳（メタデータ） (2025-07-21T06:20:27Z)
FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation [10.73307957038715]
FMSD-TTS(FMSD-TTS)は、音声合成フレームワーク。限られた参照音声と明示的な方言ラベルから並列方言音声を合成する。
論文参考訳（メタデータ） (2025-05-20T13:35:55Z)
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文参考訳（メタデータ） (2025-02-24T15:16:34Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation [3.9166923630129604]
Bailing-TTSは、高品質の中国語方言を生成できる大規模なTSモデルのファミリーである。中国語の方言表現学習は、特定のトランスフォーマーアーキテクチャと多段階学習プロセスを用いて開発されている。実験により、Bailing-TTSは人のような自然表現に向けて中国語の方言音声を生成することが示された。
論文参考訳（メタデータ） (2024-08-01T04:57:31Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Phonemic Representation and Transcription for Speech to Text Applications for Under-resourced Indigenous African Languages: The Case of Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文参考訳（メタデータ） (2022-10-29T09:04:09Z)
Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文参考訳（メタデータ） (2022-10-27T14:09:48Z)
Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T11:26:56Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文参考訳（メタデータ） (2020-08-09T08:16:33Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。