論文の概要: Fish Audio S2 Technical Report
- arxiv url: http://arxiv.org/abs/2603.08823v2
- Date: Wed, 11 Mar 2026 08:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.250647
- Title: Fish Audio S2 Technical Report
- Title(参考訳): 魚のオーディオS2技術報告
- Authors: Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han,
- Abstract要約: Fish Audio S2は、オープンソースのテキスト音声合成システムである。
マルチスピーカー、マルチターン生成、および自然な記述による命令追従制御を備えている。
モデルウェイト、微調整コード、推論エンジンをリリースします。
- 参考スコア(独自算出の注目度): 15.530056049608412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.
- Abstract(参考訳): マルチスピーカ,マルチターン生成,そして最も重要なのは,自然言語記述による命令追従制御を備えた,オープンソースのテキスト音声合成システムであるFish Audio S2を紹介する。
そこで我々は,ビデオキャプションと音声キャプション,声質評価,報酬モデルを含む,多段階のトレーニングレシピを開発した。
オープンソースTSのフロンティアを推し進めるため、私たちはモデルウェイト、微調整コード、SGLangベースの推論エンジンをリリースします。
推論エンジンはプロダクション対応で、RTFが0.195で、100ミリ秒未満のタイム・ツー・オーディオを実現している。私たちのコードとウェイトはGitHub(https://github.com/fishaudio/fish-speech)とHugging Face(https://huggingface.co/fishaudio/s2-pro)で入手できる。
カスタム音声を試すために、読者にhttps://fish.audio.comを訪れることを強く勧めます。
関連論文リスト
- Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。
本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T08:35:27Z) - The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge [12.862628838633396]
本稿では,ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024(ICAGC)に提出されたNPU-HWCシステムについて述べる。
本システムは,トラック1の音声生成装置とトラック2の音声生成装置の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2024-10-31T10:58:59Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。