論文の概要: Audio ControlNet for Fine-Grained Audio Generation and Editing
- arxiv url: http://arxiv.org/abs/2602.04680v1
- Date: Wed, 04 Feb 2026 15:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.603729
- Title: Audio ControlNet for Fine-Grained Audio Generation and Editing
- Title(参考訳): 微細オーディオ生成・編集のためのオーディオ制御ネット
- Authors: Haina Zhu, Yao Xiao, Xiquan Li, Ziyang Ma, Jianwei Yu, Bowen Zhang, Mingqi Yang, Xie Chen,
- Abstract要約: 事前訓練されたT2Aバックボーン上でコントロールネットモデルをトレーニングし、大音量、ピッチ、イベントロールに対して制御可能な生成を実現する。
我々は、このフレームワークを音声編集に拡張し、指示によって指定された時刻に音声イベントを削除・挿入するT2A-Editorを提案する。
- 参考スコア(独自算出の注目度): 27.47725996719232
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study the fine-grained text-to-audio (T2A) generation task. While recent models can synthesize high-quality audio from text descriptions, they often lack precise control over attributes such as loudness, pitch, and sound events. Unlike prior approaches that retrain models for specific control types, we propose to train ControlNet models on top of pre-trained T2A backbones to achieve controllable generation over loudness, pitch, and event roll. We introduce two designs, T2A-ControlNet and T2A-Adapter, and show that the T2A-Adapter model offers a more efficient structure with strong control ability. With only 38M additional parameters, T2A-Adapter achieves state-of-the-art performance on the AudioSet-Strong in both event-level and segment-level F1 scores. We further extend this framework to audio editing, proposing T2A-Editor for removing and inserting audio events at time locations specified by instructions. Models, code, dataset pipelines, and benchmarks will be released to support future research on controllable audio generation and editing.
- Abstract(参考訳): 細粒度テキスト・トゥ・オーディオ(T2A)生成タスクについて検討する。
近年のモデルはテキスト記述から高品質な音声を合成できるが、大音量、ピッチ、音響イベントなどの属性を正確に制御できないことが多い。
特定の制御型に対してモデルを再訓練する従来の手法とは異なり、事前訓練されたT2Aバックボーン上で制御ネットモデルをトレーニングし、大音量、ピッチ、イベントロールに対して制御可能な生成を実現する。
我々はT2A-ControlNetとT2A-Adapterという2つの設計を導入し、T2A-Adapterモデルが強力な制御能力を持つより効率的な構造を提供することを示した。
T2A-Adapterは、わずか38Mのパラメータを追加するだけで、AudioSet-StrongのイベントレベルとセグメントレベルのF1スコアの両方で最先端のパフォーマンスを達成する。
我々はさらに、このフレームワークを音声編集に拡張し、指示によって指定された時刻に音声イベントを削除・挿入するT2A-Editorを提案する。
コントロール可能なオーディオ生成と編集に関する将来の研究をサポートするため、モデル、コード、データセットパイプライン、ベンチマークがリリースされる。
関連論文リスト
- Omni2Sound: Towards Unified Video-Text-to-Audio Generation [56.11583645408007]
Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。
SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。
フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:49:41Z) - ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling [26.333732366091912]
我々は,制御可能なTTA生成をマルチタスク学習問題として再キャストし,プログレッシブ拡散モデリング手法であるControlAudioを導入する。
本手法は, ステップバイステップ戦略により, テキスト, タイミング, 音素の特徴を含む, よりきめ細かな情報に適合する。
実験により,コントロールアウディオは時間的精度と発話明瞭度の観点から最先端のパフォーマンスを達成し,客観評価と主観評価の両方において既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-10-10T00:19:41Z) - FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation [25.962163633743035]
テキスト・トゥ・オーディオ(T2A)生成は,最近の生成モデルの発展により,有望な成果を上げている。
時間的に整列した音声テキストペアの品質と量に制限があるため、既存のT2Aメソッドは複雑なテキストプロンプトを扱うのに苦労する。
本稿では,時間制御の長いT2A生成を実現するための,学習不要な時間制御型T2AフレームワークFreeAudioを提案する。
論文 参考訳(メタデータ) (2025-07-11T12:57:51Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Audio Generation with Multiple Conditional Diffusion Model [15.250081484817324]
本稿では,既存の事前学習型テキスト音声モデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
論文 参考訳(メタデータ) (2023-08-23T06:21:46Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。