論文の概要: OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.00688v2
- Date: Thu, 02 Apr 2026 10:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.461984
- Title: OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models
- Title(参考訳): OmniVoice:拡散言語モデルを用いた全言語ゼロショットテキスト音声への取り組み
- Authors: Han Zhu, Lingxuan Ye, Wei Kang, Zengwei Yao, Liyong Guo, Fangjun Kuang, Zhifeng Han, Weiji Zhuang, Long Lin, Daniel Povey,
- Abstract要約: OmniVoiceは600以上の言語にスケールする大規模多言語テキスト音声合成モデルである。
コアとなるのは、新しい拡散言語モデルスタイルの離散非自己回帰(NAR)アーキテクチャである。
OmniVoiceは、オープンソースデータから完全にキュレートされた581k時間のマルチリンガルデータセットを活用することで、これまでで最も広い範囲の言語カバレッジを実現している。
- 参考スコア(独自算出の注目度): 22.0296007342245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present OmniVoice, a massive multilingual zero-shot text-to-speech (TTS) model that scales to over 600 languages. At its core is a novel diffusion language model-style discrete non-autoregressive (NAR) architecture. Unlike conventional discrete NAR models that suffer from performance bottlenecks in complex two-stage (text-to-semantic-to-acoustic) pipelines, OmniVoice directly maps text to multi-codebook acoustic tokens. This simplified approach is facilitated by two key technical innovations: (1) a full-codebook random masking strategy for efficient training, and (2) initialization from a pre-trained LLM to ensure superior intelligibility. By leveraging a 581k-hour multilingual dataset curated entirely from open-source data, OmniVoice achieves the broadest language coverage to date and delivers state-of-the-art performance across Chinese, English, and diverse multilingual benchmarks. Our code and pre-trained models are publicly available at https://github.com/k2-fsa/OmniVoice.
- Abstract(参考訳): OmniVoiceは、600以上の言語にスケールする巨大なマルチリンガルゼロショットテキスト音声合成(TTS)モデルである。
コアとなるのは、新しい拡散言語モデルスタイルの離散非自己回帰(NAR)アーキテクチャである。
複雑な2段階 (text-to-semantic-to-acoustic) パイプラインのパフォーマンスボトルネックに悩まされる従来の離散NARモデルとは異なり、OmniVoice はテキストを直接マルチコードブック音響トークンにマッピングする。
この単純化されたアプローチは、(1)効率的なトレーニングのためのフルコードブックランダムマスキング戦略、(2)事前学習されたLCMからの初期化により、優れた知性を確保するという2つの重要な技術革新によって促進される。
OmniVoiceは、オープンソースデータから完全にキュレートされた581k時間のマルチリンガルデータセットを活用することで、これまでで最も広い言語カバレッジを実現し、中国語、英語、多言語ベンチマークで最先端のパフォーマンスを提供する。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/k2-fsa/OmniVoice.comで公開されています。
関連論文リスト
- Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis [0.0]
MahaTTS-v2は多言語対応の多言語テキスト音声合成システムである。
提案手法では,意味抽出にWav2Vec2.0トークン,テキストからセマンティック・モデリングにLanguage Model(LM)を利用する。
論文 参考訳(メタデータ) (2025-08-05T20:49:04Z) - LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration [25.693176812512196]
正書法統一とLAMA-UT(Language-Agnostic Multilingual ASR Pipeline)による言語に依存しないASRパイプラインを提案する。
LAMA-UTは、最小限のデータ量でトレーニングされた最先端モデルのパフォーマンスに適合しながら、言語固有のモジュールなしで動作します。
パイプラインはWhisperと比較して45%の相対誤差低減率を実現し,MMSと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-19T10:39:08Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。