論文の概要: Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts
- arxiv url: http://arxiv.org/abs/2605.28063v1
- Date: Wed, 27 May 2026 07:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.83659
- Title: Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts
- Title(参考訳): 自由形テキストプロンプからの合成音声と音声の統一合成
- Authors: Yuyue Wang, Xihua Wang, Xin Cheng, Yijing Chen, Ruihua Song,
- Abstract要約: フリーフォームテキスト・プロンプト・トゥ・ユニファイド・オーディオ・ジェネレーションという新しいタスクを導入する。
PlanAudioは統合された自己回帰型LLMベースのフレームワークである。
音声・音響・合成のシナリオで評価を行う。
- 参考スコア(独自算出の注目度): 20.986457042343684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio generation has made significant progress, yet synthesizing unified audio where speech and sounds are naturally composited remains a challenge. Current methods either rely on disjoint pipelines, which fail to capture fine-grained interactions, or require structured inputs and external text rewriting, which limits the flexibility of free-form text prompts. In this paper, we introduce a new task: Free-Form-Text-Prompt-to-Unified-Audio generation, which aims to directly synthesize unified audio containing speech, sound, and their composites from unconstrained natural language. To address this task, we propose PlanAudio, a unified, autoregressive LLM-based framework. First, it simplifies the model architecture by leveraging intrinsic LLM reasoning capability instead of traditional text encoders. Second, it introduces a semantic latent chain-of-thought mechanism, an implicit planning mechanism that bridges high-level semantic understanding and low-level acoustic synthesis. Furthermore, we create PlanAudio-Bench, a specialized benchmark for evaluating composite audio scenarios. We perform evaluations in the scenarios of speech, sound, and their composites. The results demonstrate that PlanAudio generally outperforms the existing pipeline and unified baselines, while staying competitive with models designed for a single scenario. Our analysis further reveals the superiority of semantic latent CoT over other CoT mechanisms and highlights the importance of continuous multi-scenario training curricula.
- Abstract(参考訳): 音声生成は大きな進歩を遂げているが、音声と音声が自然に合成されるような統合された音声を合成することは依然として課題である。
現行の手法では、細粒度の相互作用を捕捉できない不整合パイプラインに依存するか、構造化された入力と外部のテキスト書き換えを必要とするため、自由形式のテキストプロンプトの柔軟性が制限される。
本稿では,制約のない自然言語から音声,音声,合成音声を直接合成することを目的とした,フリーフォームテキスト・プロンプト・トゥ・ユニファイド・オーディオ生成という新しいタスクを紹介する。
この課題に対処するため,我々はPlanAudioを提案する。
まず、従来のテキストエンコーダではなく、固有のLLM推論機能を活用することで、モデルアーキテクチャを単純化する。
第二に、高いレベルの意味理解と低レベルの音響合成を橋渡しする暗黙の計画メカニズムであるセマンティック・ラテント・チェーン・オブ・プリート機構を導入する。
さらに、合成音声シナリオを評価するための特別なベンチマークであるPlanAudio-Benchを作成する。
音声・音響・合成のシナリオで評価を行う。
結果は、PlanAudioが既存のパイプラインと統一されたベースラインを上回っ、単一のシナリオ用に設計されたモデルと競合することを示した。
分析の結果,他のCoT機構よりもセマンティック潜在CoTの方が優れていることが明らかになり,連続多シナリオトレーニングカリキュラムの重要性が強調された。
関連論文リスト
- UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions [55.622295453533475]
音声,音楽,音響効果を合成できる統合フローマッチングフレームワークUniSonateを紹介する。
本研究では,非構造環境音を時間潜在空間に投影する動的トークン注入機構を提案する。
実験により、UniSonateは、命令ベースのTSとTTMで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-04-24T04:26:04Z) - Borderless Long Speech Synthesis [30.36601404142387]
エージェント中心, 境界なし長音声合成のためのボーダーレス長音声合成フレームワークを提案する。
単一の狭いタスクをターゲットにするのではなく、VoiceDesigner、マルチスピーカー合成、インストラクションTS、長文テキスト合成にまたがる統一的な機能セットとして設計されている。
論文 参考訳(メタデータ) (2026-03-20T09:37:54Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。