論文の概要: DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2508.13786v1
- Date: Tue, 19 Aug 2025 12:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.918876
- Title: DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer
- Title(参考訳): DegDiT:動的イベントグラフ誘導拡散変換器による制御可能なオーディオ生成
- Authors: Yisu Liu, Chenxing Li, Wanqian Zhang, Wenfu Wang, Meng Yu, Ruibo Fu, Zheng Lin, Weiping Wang, Dong Yu,
- Abstract要約: 制御可能な音声生成のための動的イベントグラフ誘導拡散トランスフォーマフレームワークであるDegDiTを提案する。
DegDiTは、記述中のイベントを構造化された動的グラフとしてエンコードする。
AudioCondition、DESED、AudioTimeデータセットの実験は、DegDiTが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 43.48616092324736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable text-to-audio generation aims to synthesize audio from textual descriptions while satisfying user-specified constraints, including event types, temporal sequences, and onset and offset timestamps. This enables precise control over both the content and temporal structure of the generated audio. Despite recent progress, existing methods still face inherent trade-offs among accurate temporal localization, open-vocabulary scalability, and practical efficiency. To address these challenges, we propose DegDiT, a novel dynamic event graph-guided diffusion transformer framework for open-vocabulary controllable audio generation. DegDiT encodes the events in the description as structured dynamic graphs. The nodes in each graph are designed to represent three aspects: semantic features, temporal attributes, and inter-event connections. A graph transformer is employed to integrate these nodes and produce contextualized event embeddings that serve as guidance for the diffusion model. To ensure high-quality and diverse training data, we introduce a quality-balanced data selection pipeline that combines hierarchical event annotation with multi-criteria quality scoring, resulting in a curated dataset with semantic diversity. Furthermore, we present consensus preference optimization, facilitating audio generation through consensus among multiple reward signals. Extensive experiments on AudioCondition, DESED, and AudioTime datasets demonstrate that DegDiT achieves state-of-the-art performances across a variety of objective and subjective evaluation metrics.
- Abstract(参考訳): 制御可能なテキスト・トゥ・オーディオ生成は、イベントタイプ、時間シーケンス、オンセットとオフセットのタイムスタンプを含む、ユーザ指定の制約を満たしながら、テキスト記述からオーディオを合成することを目的としている。
これにより、生成されたオーディオの内容と時間構造の両方を正確に制御できる。
近年の進歩にもかかわらず、既存の手法は正確な時間的局所化、オープン語彙のスケーラビリティ、実用的な効率のトレードオフに直面している。
これらの課題に対処するために,オープンボキャブラリ制御可能な音声生成のための動的イベントグラフ誘導拡散トランスフォーマフレームワークであるDegDiTを提案する。
DegDiTは、記述中のイベントを構造化された動的グラフとしてエンコードする。
各グラフのノードは、セマンティックな特徴、時間的属性、イベント間の接続の3つの側面を表現するように設計されている。
グラフ変換器はこれらのノードを統合し、拡散モデルのガイダンスとして機能するコンテキスト化されたイベント埋め込みを生成する。
高品質で多様なトレーニングデータを保証するため,階層型イベントアノテーションとマルチ基準品質スコアリングを組み合わせた品質バランスのデータ選択パイプラインを導入する。
さらに、複数の報酬信号間のコンセンサスによる音声生成を容易にするコンセンサス優先最適化を提案する。
AudioCondition、DESED、AudioTimeのデータセットに関する大規模な実験は、DegDiTが様々な客観的および主観的評価指標で最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。