論文の概要: Qwen3-TTS Technical Report
- arxiv url: http://arxiv.org/abs/2601.15621v1
- Date: Thu, 22 Jan 2026 03:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.483721
- Title: Qwen3-TTS Technical Report
- Title(参考訳): Qwen3-TTS技術報告
- Authors: Hangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin,
- Abstract要約: 本稿では,Qwen3-TTSシリーズについて述べる。
Qwen3-TTSは最先端の3秒間音声クローニングと記述ベースの制御をサポートする。
Qwen3-TTSは、2つの音声トークンとともに、リアルタイム合成のためのデュアルトラックLMアーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 64.94647392030824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission ($97\,\mathrm{ms}$) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.
- Abstract(参考訳): 本稿では,Qwen3-TTSシリーズについて述べる。
Qwen3-TTSは最先端の3秒音声クローニングと記述に基づく制御をサポートし、全く新しい音声の作成と出力音声のきめ細かい操作が可能である。
10言語にまたがる500万時間以上の音声データをトレーニングしたQwen3-TTSは、リアルタイム合成のためのデュアルトラックLMアーキテクチャと、2つの音声トークンを併用する。
1) Qwen-TTS-Tokenizer-25Hzは,Qwen-Audioとシームレスに統合し,ブロックワイズDiTによるストリーミング波形復元を可能にする,セマンティックコンテンツを強調するシングルコードブックコーデックである。
2) Qwen-TTS-Tokenizer-12Hz は極端ビットレート低減と超低レイテンシストリーミングを実現し,12.5Hz,16層のマルチコードブック設計,軽量な因果ConvNet を通じて,即時ファーストパケット出力 (97\,\mathrm{ms}$) を実現する。
広範囲な実験により,多目的および主観的ベンチマーク(TTS多言語テストセット,インストラクトTTSEval,我々の長文音声テストセットなど)における最先端のパフォーマンスが示された。
コミュニティの研究と開発を容易にするため、私たちはApache 2.0ライセンスの下でトークンライザとモデルをリリースしています。
関連論文リスト
- Qwen3-Omni Technical Report [105.11829337290249]
Qwen3-Omniは、テキスト、画像、オーディオ、ビデオ間で最先端のパフォーマンスを維持する単一のマルチモーダルモデルである。
Qwen3-OmniはQwenシリーズ内の同一サイズのシングルモーダルモデルのパフォーマンスと一致し、特にオーディオタスクに優れる。
119言語でのテキストインタラクション、19言語での音声理解、および10言語での音声生成をサポートする。
論文 参考訳(メタデータ) (2025-09-22T13:26:24Z) - TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。
TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。
フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文 参考訳(メタデータ) (2025-08-22T20:45:03Z) - UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information [12.991605203384458]
以下の利点を総合的に提供する DistilCodec と UniTTS を提案する。
DistilCodecは、マルチコードブックオーディオを32のコードを持つシングルコードブックオーディオに蒸留し、100%近い利用率を達成する。
UniTTSは3段階のトレーニングプロセス(事前訓練、監視ファインチューニング(SFT)、アライメント)を採用している。
論文 参考訳(メタデータ) (2025-05-23T03:13:46Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System [6.686126079510178]
本稿では,主にXTTSとTortoiseモデルに基づくIndexTTSシステムを紹介する。
具体的には、中国語のシナリオでは、文字とピンインを組み合わせたハイブリッドなモデリング手法を採用する。
XTTSと比較すると、自然性、コンテンツ一貫性、ゼロショット音声クローンの大幅な改善が達成されている。
論文 参考訳(メタデータ) (2025-02-08T10:23:20Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。