論文の概要: InstructAudio: Unified speech and music generation with natural language instruction
- arxiv url: http://arxiv.org/abs/2511.18487v1
- Date: Sun, 23 Nov 2025 15:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.862438
- Title: InstructAudio: Unified speech and music generation with natural language instruction
- Title(参考訳): InstructAudio:自然言語による統一音声と音楽生成
- Authors: Chunyu Qiang, Kang Yin, Xiaopeng Wang, Yuzhe Liang, Jiahui Zhao, Ruibo Fu, Tianrui Wang, Cheng Gong, Chen Zhang, Longbiao Wang, Jianwu Dang,
- Abstract要約: InstructAudioは、音響属性の命令ベースの制御を可能にする統一的なフレームワークである。
英語と中国語で表現力のある音声、音楽、対話生成をサポートする。
- 参考スコア(独自算出の注目度): 52.76518112649456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) and text-to-music (TTM) models face significant limitations in instruction-based control. TTS systems usually depend on reference audio for timbre, offer only limited text-level attribute control, and rarely support dialogue generation. TTM systems are constrained by input conditioning requirements that depend on expert knowledge annotations. The high heterogeneity of these input control conditions makes them difficult to joint modeling with speech synthesis. Despite sharing common acoustic modeling characteristics, these two tasks have long been developed independently, leaving open the challenge of achieving unified modeling through natural language instructions. We introduce InstructAudio, a unified framework that enables instruction-based (natural language descriptions) control of acoustic attributes including timbre (gender, age), paralinguistic (emotion, style, accent), and musical (genre, instrument, rhythm, atmosphere). It supports expressive speech, music, and dialogue generation in English and Chinese. The model employs joint and single diffusion transformer layers with a standardized instruction-phoneme input format, trained on 50K hours of speech and 20K hours of music data, enabling multi-task learning and cross-modal alignment. Fig. 1 visualizes performance comparisons with mainstream TTS and TTM models, demonstrating that InstructAudio achieves optimal results on most metrics. To our best knowledge, InstructAudio represents the first instruction-controlled framework unifying speech and music generation. Audio samples are available at: https://qiangchunyu.github.io/InstructAudio/
- Abstract(参考訳): Text-to-speech (TTS) と text-to-music (TTM) モデルは、命令ベースの制御において重大な制限に直面している。
TTSシステムは通常、音色に対する参照音声に依存し、限られたテキストレベルの属性制御しか提供せず、対話生成をほとんどサポートしていない。
TTMシステムは、専門家の知識アノテーションに依存する入力条件付き要求によって制約される。
これらの入力制御条件の均一性が高いため、音声合成との結合モデリングが困難である。
共通の音響モデリング特性を共有しながらも、これらの2つのタスクは独立して開発され、自然言語命令を通じて統一モデリングを実現するという課題が残されている。
InstructAudioは、音色(性別、年齢)、パラ言語(感情、スタイル、アクセント)、音楽(ジャンル、楽器、リズム、雰囲気)を含む音響特性の指示に基づく(自然な言語記述)制御を可能にする統合されたフレームワークである。
英語と中国語で表現力のある音声、音楽、対話生成をサポートする。
このモデルは、50K時間の音声と20K時間の音楽データに基づいて訓練され、マルチタスク学習とクロスモーダルアライメントを可能にする、標準化された命令音素入力フォーマットのジョイントトランスフォーマー層とシングル拡散トランスフォーマー層を採用している。
図1は、メインストリームのTSモデルとTMモデルのパフォーマンス比較を視覚化し、InstructAudioがほとんどのメトリクスで最適な結果を得ることを示す。
我々の知る限り、InstructAudioは、音声と音楽の生成を統一する最初の命令制御フレームワークである。
オーディオサンプルは、https://qiangchunyu.github.io/InstructAudio/で入手できる。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model [11.62674351793]
複数の拡張を伴ってコンテキスト特徴を適応する新しい音声ベースのTSモデルを提案する。
Qformerの成功に触発されて,マルチモーダルなコンテキスト強化Qformerを提案する。
提案手法は,様々な状況のTSシナリオにおいて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T03:06:45Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。