論文の概要: UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions
- arxiv url: http://arxiv.org/abs/2604.22209v1
- Date: Fri, 24 Apr 2026 04:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.338743
- Title: UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions
- Title(参考訳): UniSonate:テキスト指導による音声・音楽・音響効果の統一モデル
- Authors: Chunyu Qiang, Xiaopeng Wang, Kang Yin, Yuzhe Liang, Yuxin Guo, Teng Ma, Ziyu Zhang, Tianrui Wang, Cheng Gong, Yushen Chen, Ruibo Fu, Chen Zhang, Longbiao Wang, Jianwu Dang,
- Abstract要約: 音声,音楽,音響効果を合成できる統合フローマッチングフレームワークUniSonateを紹介する。
本研究では,非構造環境音を時間潜在空間に投影する動的トークン注入機構を提案する。
実験により、UniSonateは、命令ベースのTSとTTMで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 55.622295453533475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative audio modeling has largely been fragmented into specialized tasks, text-to-speech (TTS), text-to-music (TTM), and text-to-audio (TTA), each operating under heterogeneous control paradigms. Unifying these modalities remains a fundamental challenge due to the intrinsic dissonance between structured semantic representations (speech/music) and unstructured acoustic textures (sound effects). In this paper, we introduce UniSonate, a unified flow-matching framework capable of synthesizing speech, music, and sound effects through a standardized, reference-free natural language instruction interface. To reconcile structural disparities, we propose a novel dynamic token injection mechanism that projects unstructured environmental sounds into a structured temporal latent space, enabling precise duration control within a phoneme-driven Multimodal Diffusion Transformer (MM-DiT). Coupled with a multi-stage curriculum learning strategy, this approach effectively mitigates cross-modal optimization conflicts. Extensive experiments demonstrate that UniSonate achieves state-of-the-art performance in instruction-based TTS (WER 1.47%) and TTM (SongEval Coherence 3.18), while maintaining competitive fidelity in TTA. Crucially, we observe positive transfer, where joint training on diverse audio data significantly enhances structural coherence and prosodic expressiveness compared to single-task baselines. Audio samples are available at https://qiangchunyu.github.io/UniSonate/.
- Abstract(参考訳): 生成音声モデリングは、主に特殊なタスク、TTS(text-to-speech)、TTM(text-to-music)、TTA(text-to-audio)に分けられ、それぞれが異種制御パラダイムの下で動作している。
これらのモダリティを統一することは、構造的意味表現(音声/音楽)と非構造的音響テクスチャ(音響効果)の間に固有の不協和性があるため、依然として根本的な課題である。
本稿では,UniSonateについて紹介する。UniSonateは,音声,音楽,音響効果を,標準化された参照不要な自然言語命令インタフェースを通じて合成する,統一的なフローマッチングフレームワークである。
音素駆動型マルチモーダル拡散変換器(MM-DiT)において,非構造的環境音を時間的遅延空間に投影する動的トークン注入機構を提案する。
多段階のカリキュラム学習戦略と組み合わせて、このアプローチは多段階間の最適化競合を効果的に軽減する。
UniSonateは、TTAの競争力を維持しつつ、命令ベースのTS(WER 1.47%)とTM(SongEval Coherence 3.18)で最先端のパフォーマンスを達成することを示した。
音声データに対する共同学習は,単一タスクのベースラインと比較して,構造的コヒーレンスや韻律的表現性を著しく向上させる。
オーディオサンプルはhttps://qiangchunyu.github.io/UniSonate/で入手できる。
関連論文リスト
- Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs [53.41256816230278]
最近のオーディオ大言語モデル(AudioLLMs)は、顕著な性能逆転を示す。
複雑な推論タスクには優れるが、音の微妙な知覚では一貫して性能が劣る。
音声情報を3つの明示的な構成要素に整理する総合的かつ構造化された監視フレームワークであるUnified Audio (UAS)を提案する。
論文 参考訳(メタデータ) (2026-04-14T09:30:12Z) - SAM Audio: Segment Anything in Audio [55.50609519820557]
一般的なオーディオソース分離は、マルチモーダルAIシステムにとって重要な機能である。
本稿では,一般的な音声分離のための基礎モデルであるSAM Audioを紹介する。
テキスト、ビジュアル、タイムスパンを単一のフレームワーク内で統合する。
論文 参考訳(メタデータ) (2025-12-19T22:14:23Z) - InstructAudio: Unified speech and music generation with natural language instruction [52.76518112649456]
InstructAudioは、音響属性の命令ベースの制御を可能にする統一的なフレームワークである。
英語と中国語で表現力のある音声、音楽、対話生成をサポートする。
論文 参考訳(メタデータ) (2025-11-23T15:15:21Z) - From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training [19.396162898865864]
Text-to-Talk (TtT) は、自動回帰(AR)テキスト生成と非自己回帰(NAR)音声拡散を統合した統合オーディオテキストフレームワークである。
このハイブリッド生成パラダイムをサポートするために,テキストの因果復号を強制するモダリティ対応アテンション機構を設計する。
推論中、TtTは可変長出力を柔軟に処理しながら、ブロックワイド拡散を用いてオーディオを並列に合成する。
論文 参考訳(メタデータ) (2025-09-24T12:44:26Z) - Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。