論文の概要: MOSS-TTS Technical Report
- arxiv url: http://arxiv.org/abs/2603.18090v1
- Date: Wed, 18 Mar 2026 09:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.757647
- Title: MOSS-TTS Technical Report
- Title(参考訳): MOSS-TTS技術報告
- Authors: Yitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu,
- Abstract要約: MOSS-TTSは、スケーラブルなレシピに基づいて構築された音声生成基盤モデルである。
24kHzのオーディオを12.5fpsに圧縮し、可変ビットレートRVQとセマンティック音響表現を統一する。
ゼロショット音声のクローニング、トークンレベルの持続時間制御、音素/ピニリンレベルの発音制御、スムーズなコードスイッチング、安定した長文生成をサポートする。
- 参考スコア(独自算出の注目度): 62.0595749527453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.
- Abstract(参考訳): 本技術報告では、離散音声トークン、自己回帰モデリング、大規模事前学習という、スケーラブルなレシピに基づいて構築された音声生成基盤モデルであるMOSS-TTSを提案する。
24kHzの音声を可変ビットレートRVQと統一的な意味音響表現で12.5fpsに圧縮する因果変換器であるMOSS-Audio-Tokenizer上に構築され、構造的単純性、スケーラビリティ、長文/制御指向のデプロイメントを重視したMOSS-TTSと、より高速なモデリング効率、より強力な話者保存、より短時間でファーストオーディオを実現するフレームローカル自動回帰モジュールを備えたMOSS-TTS-Local-Transformerの2つの補完ジェネレータをリリースする。
マルチリンガルおよびオープンドメイン設定全体で、MOSS-TTSはゼロショット音声のクローニング、トークンレベルの持続時間制御、音素/ピニリンレベルの発音制御、スムーズなコードスイッチング、安定した長文生成をサポートする。
本報告では, モデルの設計, トレーニングレシピ, 経験的特性について概説する。
関連論文リスト
- Qwen3-TTS Technical Report [64.94647392030824]
本稿では,Qwen3-TTSシリーズについて述べる。
Qwen3-TTSは最先端の3秒間音声クローニングと記述ベースの制御をサポートする。
Qwen3-TTSは、2つの音声トークンとともに、リアルタイム合成のためのデュアルトラックLMアーキテクチャを採用している。
論文 参考訳(メタデータ) (2026-01-22T03:51:43Z) - Step-Audio-EditX Technical Report [61.039849674472585]
提案するStep-Audio-EditXは,表現的かつ反復的な音声編集に優れる,初めてのオープンソースのLCMベースオーディオモデルである。
私たちの中心となるイノベーションは、組み込みベースのプリエントや補助モジュールの必要性を回避するために、大規模な合成データのみを活用することです。
Step-Audio-EditX は感情編集やその他の細かい制御タスクにおいて MiniMax-2.6-hd と Doubao-Seed-TTS-2.0 を上回っている。
論文 参考訳(メタデータ) (2025-11-05T16:22:19Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - FastPitchFormant: Source-filter based Decomposed Modeling for Speech
Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。
FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文 参考訳(メタデータ) (2021-06-29T07:06:42Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Serialized Output Training for End-to-End Overlapped Speech Recognition [35.894025054676696]
逐次出力訓練(SOT)はマルチ話者重畳音声認識のための新しいフレームワークである。
SOTは、複数の話者の書き起こしを次々と生成する出力層が1つしかないモデルを使用する。
SOTモデルは、PITモデルよりも話者の変動数で重なり合った音声を転写可能であることを示す。
論文 参考訳(メタデータ) (2020-03-28T02:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。