論文の概要: MOSS-VoiceGenerator: Create Realistic Voices with Natural Language Descriptions
- arxiv url: http://arxiv.org/abs/2603.28086v1
- Date: Mon, 30 Mar 2026 06:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.263015
- Title: MOSS-VoiceGenerator: Create Realistic Voices with Natural Language Descriptions
- Title(参考訳): MOSS-VoiceGenerator: 自然言語記述によるリアルな音声生成
- Authors: Kexin Huang, Liwei Fan, Botian Jiang, Yaozhou Jiang, Qian Tu, Jie Zhu, Yuqian Zhang, Yiwei Zhao, Chenchen Yang, Zhaoye Fei, Shimin Li, Xiaogui Yang, Qinyuan Cheng, Xipeng Qiu,
- Abstract要約: MOSS-VoiceGeneratorは、自然言語プロンプトから直接新しい音色を生成するオープンソースの命令駆動音声生成モデルである。
実世界の音響変化に曝露すると、より知覚的に自然な音声が生まれるという仮説に触発され、映画コンテンツから得られた大規模表現音声データに基づいて訓練を行う。
主観的嗜好研究は、他の音声設計モデルと比較して、全体的な性能、指示追従、自然性においてその優位性を示す。
- 参考スコア(独自算出の注目度): 60.69565588088127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice design from natural language aims to generate speaker timbres directly from free-form textual descriptions, allowing users to create voices tailored to specific roles, personalities, and emotions. Such controllable voice creation benefits a wide range of downstream applications-including storytelling, game dubbing, role-play agents, and conversational assistants, making it a significant task for modern Text-to-Speech models. However, existing models are largely trained on carefully recorded studio data, which produces speech that is clean and well-articulated, yet lacks the lived-in qualities of real human voices. To address these limitations, we present MOSS-VoiceGenerator, an open-source instruction-driven voice generation model that creates new timbres directly from natural language prompts. Motivated by the hypothesis that exposure to real-world acoustic variation produces more perceptually natural voices, we train on large-scale expressive speech data sourced from cinematic content. Subjective preference studies demonstrate its superiority in overall performance, instruction-following, and naturalness compared to other voice design models.
- Abstract(参考訳): 自然言語からの音声デザインは、自由形式のテキスト記述から直接話者の音色を生成することを目的としており、ユーザーは特定の役割、個性、感情に合わせた音声を作成することができる。
このようなコントロール可能な音声生成は、ストーリーテリング、ゲームダビング、ロールプレイエージェント、会話アシスタントを含む幅広いダウンストリームアプリケーションに恩恵をもたらし、現代のテキスト音声モデルにとって重要なタスクとなっている。
しかし、既存のモデルは慎重に記録されたスタジオデータに基づいて主に訓練されており、クリーンで順調な音声を生成できるが、実際の人間の声の生活品質は欠如している。
これらの制約に対処するため,オープンソースの命令駆動音声生成モデルであるMOSS-VoiceGeneratorを提案する。
実世界の音響変化に曝露すると、より知覚的に自然な音声が生み出すという仮説により、映画コンテンツから得られた大規模表現音声データに基づいて訓練を行う。
主観的嗜好研究は、他の音声設計モデルと比較して、全体的な性能、指示追従、自然性においてその優位性を示す。
関連論文リスト
- NaturalVoices: A Large-Scale, Spontaneous and Emotional Podcast Dataset for Voice Conversion [25.896735200803537]
NaturalVoices (NV) は感情認識音声変換用に設計された最初の大規模自発的ポッドキャストデータセットである。
5,049時間の自発的なポッドキャスト記録と感情(カテゴリーと属性に基づく)の自動アノテーション、音声品質、文字起こし、話者識別、音声イベントを含む。
このデータセットは、数千の話者、多様なトピック、そして自然な話し方における表現力のある感情の変化をキャプチャする。
論文 参考訳(メタデータ) (2025-10-31T21:00:14Z) - Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。
顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。
顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-05-25T04:43:17Z) - LoRP-TTS: Low-Rank Personalized Text-To-Speech [0.0]
音声合成モデルは、テキストを自然な音声に変換する。
Low-Rank Adaptation (LoRA) は、ノイズの多い環境で自然発話の単一記録をプロンプトとしてうまく利用することができる。
論文 参考訳(メタデータ) (2025-02-11T14:00:12Z) - A Unified Model For Voice and Accent Conversion In Speech and Singing using Self-Supervised Learning and Feature Extraction [0.0]
本稿では,話し声と歌声の両方を変換できる新しい音声変換モデルを提案する。
このモデルの特長の1つは、ハイブリッド音声サンプルでアクセント変換を行う能力である。
論文 参考訳(メタデータ) (2024-12-11T11:47:39Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。