論文の概要: UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2502.03897v3
- Date: Mon, 14 Apr 2025 08:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:46:24.143727
- Title: UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation
- Title(参考訳): UniForm:オーディオビデオ生成のための統合マルチタスク拡散変換器
- Authors: Lei Zhao, Linfeng Feng, Dongxu Ge, Rujin Chen, Fangqiu Yi, Chi Zhang, Xiao-Lei Zhang, Xuelong Li,
- Abstract要約: UniFormはマルチタスク拡散変換器であり、共有潜在空間における音声と視覚のモダリティを共同で生成する。
単一の拡散プロセスは、音声とビデオの両方をモデル化し、音と視覚の固有の相関をキャプチャする。
大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
- 参考スコア(独自算出の注目度): 44.21422404659117
- License:
- Abstract: With the rise of diffusion models, audio-video generation has been revolutionized. However, most existing methods rely on separate modules for each modality, with limited exploration of unified generative architectures. In addition, many are confined to a single task and small-scale datasets. To address these limitations, we first propose UniForm, a unified multi-task diffusion transformer that jointly generates audio and visual modalities in a shared latent space. A single diffusion process models both audio and video, capturing the inherent correlations between sound and vision. Second, we introduce task-specific noise schemes and task tokens, enabling a single model to support multiple tasks, including text-to-audio-video, audio-to-video, and video-to-audio generation. Furthermore, by leveraging large language models and a large-scale text-audio-video combined dataset, UniForm achieves greater generative diversity than prior approaches. Extensive experiments show that UniForm achieves the state-of-the-art performance across audio-video generation tasks, producing content that is both well-aligned and close to real-world data distributions. Our demos are available at https://uniform-t2av.github.io/.
- Abstract(参考訳): 拡散モデルの台頭により、オーディオビデオ生成は革命的になった。
しかし、既存のほとんどの手法は各モジュラリティに対して別々のモジュールに依存しており、統一生成アーキテクチャの探索は限られている。
さらに、その多くは単一のタスクと小さなデータセットに制限されている。
これらの制約に対処するため、我々はまず、共有潜在空間における音声と視覚のモーダルを共同で生成する統合マルチタスク拡散変換器UniFormを提案する。
単一の拡散プロセスは、音声とビデオの両方をモデル化し、音と視覚の固有の相関をキャプチャする。
第2に、タスク固有のノイズスキームとタスクトークンを導入し、テキスト・トゥ・オーディオ・ビデオ、オーディオ・トゥ・ビデオ、ビデオ・トゥ・オーディオ・ジェネレーションを含む複数のタスクを単一のモデルでサポートできるようにする。
さらに、大きな言語モデルと大規模なテキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
広汎な実験により、UniFormは、オーディオビデオ生成タスク間で最先端のパフォーマンスを達成し、良質で実世界のデータ配信に近いコンテンツを生成することが示されている。
私たちのデモはhttps://uniform-t2av.github.io/で公開されています。
関連論文リスト
- Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
AV-Linkは、ビデオ・トゥ・オーディオとオーディオ・トゥ・ビデオ生成のための統合されたフレームワークである。
バックボーンビデオとオーディオ拡散モデル間の双方向情報交換を可能にするFusion Blockを提案する。
設計選択を評価し,同期・高品質な映像コンテンツを実現するための手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。
空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。