論文の概要: ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling
- arxiv url: http://arxiv.org/abs/2510.08878v1
- Date: Fri, 10 Oct 2025 00:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.903111
- Title: ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling
- Title(参考訳): ControlAudio:プログレッシブ拡散モデリングによるテキストガイド、タイミング表示、インテリジェントオーディオ生成
- Authors: Yuxuan Jiang, Zehua Chen, Zeqian Ju, Yusheng Dai, Weibei Dou, Jun Zhu,
- Abstract要約: 我々は,制御可能なTTA生成をマルチタスク学習問題として再キャストし,プログレッシブ拡散モデリング手法であるControlAudioを導入する。
本手法は, ステップバイステップ戦略により, テキスト, タイミング, 音素の特徴を含む, よりきめ細かな情報に適合する。
実験により,コントロールアウディオは時間的精度と発話明瞭度の観点から最先端のパフォーマンスを達成し,客観評価と主観評価の両方において既存の手法を著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 26.333732366091912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-audio (TTA) generation with fine-grained control signals, e.g., precise timing control or intelligible speech content, has been explored in recent works. However, constrained by data scarcity, their generation performance at scale is still compromised. In this study, we recast controllable TTA generation as a multi-task learning problem and introduce a progressive diffusion modeling approach, ControlAudio. Our method adeptly fits distributions conditioned on more fine-grained information, including text, timing, and phoneme features, through a step-by-step strategy. First, we propose a data construction method spanning both annotation and simulation, augmenting condition information in the sequence of text, timing, and phoneme. Second, at the model training stage, we pretrain a diffusion transformer (DiT) on large-scale text-audio pairs, achieving scalable TTA generation, and then incrementally integrate the timing and phoneme features with unified semantic representations, expanding controllability. Finally, at the inference stage, we propose progressively guided generation, which sequentially emphasizes more fine-grained information, aligning inherently with the coarse-to-fine sampling nature of DiT. Extensive experiments show that ControlAudio achieves state-of-the-art performance in terms of temporal accuracy and speech clarity, significantly outperforming existing methods on both objective and subjective evaluations. Demo samples are available at: https://control-audio.github.io/Control-Audio.
- Abstract(参考訳): 近年,微粒化制御信号を用いたテキスト・トゥ・オーディオ(TTA)生成技術が研究されている。
しかし、データの不足によって制約されているため、大規模な世代パフォーマンスはいまだに損なわれている。
本研究では,制御可能なTTA生成をマルチタスク学習問題として再キャストし,プログレッシブ拡散モデリング手法であるControlAudioを導入する。
本手法は, ステップバイステップ戦略により, テキスト, タイミング, 音素の特徴を含む, よりきめ細かな情報に適合する。
まず,アノテーションとシミュレーションの両方にまたがるデータ構築手法を提案する。
第2に、モデルトレーニング段階では、大規模テキストオーディオペア上で拡散変換器(DiT)を事前訓練し、スケーラブルなTTA生成を実現し、その後、タイミングと音素の特徴を統一的な意味表現と漸進的に統合し、制御可能性を広げる。
最後に、推測段階では、よりきめ細かい情報を逐次強調し、DiTの粗いサンプリング特性と本質的に一致させる、段階的にガイドされた生成を提案する。
広汎な実験により,ControlAudioは時間的精度と発話明瞭度の観点から最先端のパフォーマンスを達成し,客観的評価と主観的評価の両方において既存の手法を著しく上回った。
デモサンプルは、https://control-audio.github.io/Control-Audio.comで公開されている。
関連論文リスト
- DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer [43.48616092324736]
制御可能な音声生成のための動的イベントグラフ誘導拡散トランスフォーマフレームワークであるDegDiTを提案する。
DegDiTは、記述中のイベントを構造化された動的グラフとしてエンコードする。
AudioCondition、DESED、AudioTimeデータセットの実験は、DegDiTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-08-19T12:41:15Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Audio Generation with Multiple Conditional Diffusion Model [15.250081484817324]
本稿では,既存の事前学習型テキスト音声モデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
論文 参考訳(メタデータ) (2023-08-23T06:21:46Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。