論文の概要: FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2507.08557v1
- Date: Fri, 11 Jul 2025 12:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.365261
- Title: FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation
- Title(参考訳): FreeAudio: 制御可能な長文間テキスト生成のための学習自由タイミング計画
- Authors: Yuxuan Jiang, Zehua Chen, Zeqian Ju, Chang Li, Weibei Dou, Jun Zhu,
- Abstract要約: テキスト・トゥ・オーディオ(T2A)生成は,最近の生成モデルの発展により,有望な成果を上げている。
時間的に整列した音声テキストペアの品質と量に制限があるため、既存のT2Aメソッドは複雑なテキストプロンプトを扱うのに苦労する。
本稿では,時間制御の長いT2A生成を実現するための,学習不要な時間制御型T2AフレームワークFreeAudioを提案する。
- 参考スコア(独自算出の注目度): 21.809588295215097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-audio (T2A) generation has achieved promising results with the recent advances in generative models. However, because of the limited quality and quantity of temporally-aligned audio-text pairs, existing T2A methods struggle to handle the complex text prompts that contain precise timing control, e.g., "owl hooted at 2.4s-5.2s". Recent works have explored data augmentation techniques or introduced timing conditions as model inputs to enable timing-conditioned 10-second T2A generation, while their synthesis quality is still limited. In this work, we propose a novel training-free timing-controlled T2A framework, FreeAudio, making the first attempt to enable timing-controlled long-form T2A generation, e.g., "owl hooted at 2.4s-5.2s and crickets chirping at 0s-24s". Specifically, we first employ an LLM to plan non-overlapping time windows and recaption each with a refined natural language description, based on the input text and timing prompts. Then we introduce: 1) Decoupling and Aggregating Attention Control for precise timing control; 2) Contextual Latent Composition for local smoothness and Reference Guidance for global consistency. Extensive experiments show that: 1) FreeAudio achieves state-of-the-art timing-conditioned T2A synthesis quality among training-free methods and is comparable to leading training-based methods; 2) FreeAudio demonstrates comparable long-form generation quality with training-based Stable Audio and paves the way for timing-controlled long-form T2A synthesis. Demo samples are available at: https://freeaudio.github.io/FreeAudio/
- Abstract(参考訳): テキスト・トゥ・オーディオ(T2A)生成は,最近の生成モデルの発展により,有望な成果を上げている。
しかし、時間的に整列した音声テキストペアの品質と量に制限があるため、既存のT2Aメソッドは正確なタイミング制御を含む複雑なテキストプロンプトを扱うのに苦労している。
最近の研究は、時間条件付き10秒T2A生成を可能にするため、データ拡張技術やモデル入力としてタイミング条件を導入し、その合成品質は制限されている。
本研究では,「2.4s-5.2sでフクロウ、0s-24sでチャープするフクロウ」のタイミング制御型ロングフォームT2A生成を実現するための新しいトレーニングフリーなT2AフレームワークFreeAudioを提案する。
具体的には、まずLLMを用いて、入力テキストとタイミングプロンプトに基づいて、重複しない時間ウィンドウと再カプセル化をそれぞれ洗練された自然言語記述で計画する。
次に紹介する。
1) 正確なタイミング制御のための注意制御の分離及び集約
2)大域的一貫性のための局所的滑らかさと基準ガイダンスのための文脈的潜時構成
大規模な実験は、こう示しています。
1)FreeAudioは、トレーニングフリーメソッドで最先端のタイミング条件付きT2A合成品質を実現し、主要なトレーニングベースメソッドに匹敵する。
2) FreeAudioは、トレーニングベースであるStable Audioと同等の長形生成品質を示し、タイミング制御型長形T2A合成の道を開く。
デモサンプルは、https://freeaudio.github.io/FreeAudio/で入手できる。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion [27.47320496383661]
本稿では,時間的ダイナミクスを制御するために音声信号を利用する新しいT2Vフレームワークを提案する。
音声による局所的な編集と信号の平滑化を提案し,ビデオ合成におけるデシラタの相反する2つのデシラタのバランスを良くする。
論文 参考訳(メタデータ) (2023-05-06T10:26:56Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。