論文の概要: JoyTTS: LLM-based Spoken Chatbot With Voice Cloning
- arxiv url: http://arxiv.org/abs/2507.02380v1
- Date: Thu, 03 Jul 2025 07:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.791112
- Title: JoyTTS: LLM-based Spoken Chatbot With Voice Cloning
- Title(参考訳): JoyTTS:LLMベースの音声チャットボット
- Authors: Fangru Zhou, Jun Zhao, Guoxin Wang,
- Abstract要約: JoyTTSは、大きな言語モデル(LLM)と音声クローニング機能を備えたテキスト音声合成(TTS)技術を組み合わせている。
このプロジェクトは、オープンソースのMiniCPM-oとCosyVoice2モデルに基づいて構築され、2000時間の会話データに基づいてトレーニングされている。
テストマシンのシード-tts-zhでは、SSスコア0.73、WERスコア5.09を達成する。
- 参考スコア(独自算出の注目度): 11.271340455454522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: JoyTTS is an end-to-end spoken chatbot that combines large language models (LLM) with text-to-speech (TTS) technology, featuring voice cloning capabilities. This project is built upon the open-source MiniCPM-o and CosyVoice2 models and trained on 2000 hours of conversational data. We have also provided the complete training code to facilitate further development and optimization by the community. On the testing machine seed-tts-zh, it achieves a SS (speaker similarity) score of 0.73 and a WER (Word Error Rate) of 5.09. The code and models, along with training and inference scripts, are available at https://github.com/jdh-algo/JoyTTS.git.
- Abstract(参考訳): JoyTTSは、大規模言語モデル(LLM)とテキスト音声(TTS)技術を組み合わせた、エンドツーエンドの音声チャットボットである。
このプロジェクトは、オープンソースのMiniCPM-oとCosyVoice2モデルに基づいて構築され、2000時間の会話データに基づいてトレーニングされている。
コミュニティによるさらなる開発と最適化を容易にするための、完全なトレーニングコードも提供しています。
テストマシンのシード-tts-zhでは、SSスコア0.73、WERスコア5.09を達成する。
コードとモデル、トレーニングと推論スクリプトはhttps://github.com/jdh-algo/JoyTTS.git.comから入手できる。
関連論文リスト
- MinMo: A Multimodal Large Language Model for Seamless Voice Interaction [73.39573341265027]
シームレスな音声対話のためのマルチモーダル大規模言語モデルMinMoを紹介する。
我々は、音声テキストから音声へのアライメント、テキストから音声へのアライメント、音声から音声へのアライメント、二重相互作用を通じてMinMoを訓練する。
マルチテキストトレーニングの後、MinMoは音声の理解と生成のための様々なベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-01-10T15:55:27Z) - GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot [30.866548518233433]
GLM-4-Voiceは、インテリジェントで人間らしく、エンド・ツー・エンドの音声チャットボットである。
中国語と英語の両方をサポートし、リアルタイムの音声会話に従事し、ユーザーの指示に応じて感情、イントネーション、発話速度、方言などの声のニュアンスを変化させる。
論文 参考訳(メタデータ) (2024-12-03T17:41:24Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Code-Mixed Text to Speech Synthesis under Low-Resource Constraints [6.544954579068865]
本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムについて述べる。
本稿では,個々の言語におけるモノリンガルデータセットを利用したデータ指向手法を提案する。
純粋なコード混在テストセットでは、コード混在のない単一のスクリプトバイランガルトレーニングが有効であることを示す。
論文 参考訳(メタデータ) (2023-12-02T10:40:38Z) - GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System [8.660929270060146]
大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。
このシステムは、音声の概念的意味に基づいて適切なジェスチャーを選択する、音声合成システムと統合されている。
論文 参考訳(メタデータ) (2023-05-10T10:14:16Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。