論文の概要: AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
- arxiv url: http://arxiv.org/abs/2406.07686v1
- Date: Tue, 11 Jun 2024 20:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:16:01.856991
- Title: AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
- Title(参考訳): AV-DiT:ジョイントオーディオ・ビデオ生成のための高能率オーディオ・ビジュアル・ディフュージョン変換器
- Authors: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian,
- Abstract要約: AV-DiTは,新規かつ効率的な音声・視覚拡散変換器である。
画像のみのデータに基づいて事前訓練された共有DiTバックボーンは、オーディオおよびビデオの生成を容易にする。
AIST++とLandscapeデータセットの実験は、AV-DiTが関節型オーディオ視覚生成において最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 33.315479764894086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Diffusion Transformers (DiTs) have shown impressive capabilities in generating high-quality single-modality content, including images, videos, and audio. However, it is still under-explored whether the transformer-based diffuser can efficiently denoise the Gaussian noises towards superb multimodal content creation. To bridge this gap, we introduce AV-DiT, a novel and efficient audio-visual diffusion transformer designed to generate high-quality, realistic videos with both visual and audio tracks. To minimize model complexity and computational costs, AV-DiT utilizes a shared DiT backbone pre-trained on image-only data, with only lightweight, newly inserted adapters being trainable. This shared backbone facilitates both audio and video generation. Specifically, the video branch incorporates a trainable temporal attention layer into a frozen pre-trained DiT block for temporal consistency. Additionally, a small number of trainable parameters adapt the image-based DiT block for audio generation. An extra shared DiT block, equipped with lightweight parameters, facilitates feature interaction between audio and visual modalities, ensuring alignment. Extensive experiments on the AIST++ and Landscape datasets demonstrate that AV-DiT achieves state-of-the-art performance in joint audio-visual generation with significantly fewer tunable parameters. Furthermore, our results highlight that a single shared image generative backbone with modality-specific adaptations is sufficient for constructing a joint audio-video generator. Our source code and pre-trained models will be released.
- Abstract(参考訳): 最近のDiffusion Transformers (DiTs)は、画像、ビデオ、オーディオを含む高品質な単一モダリティコンテンツを生成する素晴らしい能力を示している。
しかし, 変圧器をベースとしたディフューザがガウス雑音を効率よくマルチモーダルコンテンツ生成に分解できるかどうかはまだ未定である。
このギャップを埋めるために、視覚とオーディオの両方で高品質でリアルなビデオを生成するために設計された、新しく効率的なオーディオ-視覚拡散変換器であるAV-DiTを導入する。
モデルの複雑さと計算コストを最小限に抑えるため、AV-DiTは画像のみのデータで事前訓練された共有のDiTバックボーンを使用し、新しく挿入されたアダプタのみをトレーニングできる。
この共有バックボーンは、オーディオとビデオの両方を生成する。
具体的には、トレーニング可能な時間的注意層を凍結したトレーニング済みのDiTブロックに組み込んで、時間的一貫性を実現する。
さらに、少数のトレーニング可能なパラメータが画像ベースのDiTブロックに適応してオーディオを生成する。
軽量なパラメータを備えた追加の共有DiTブロックは、オーディオと視覚のモダリティ間の特徴的相互作用を促進し、アライメントを確保する。
AIST++とLandscapeデータセットの大規模な実験により、AV-DiTは可変パラメータが大幅に少ない共同オーディオ・ビジュアル生成において最先端のパフォーマンスを達成することが示された。
さらに, 単一の共有画像生成バックボーンをモダリティに適応させることで, 共同オーディオ映像生成装置を構築するのに十分であることを示した。
ソースコードと事前訓練されたモデルがリリースされます。
関連論文リスト
- MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Vision Transformers are Parameter-Efficient Audio-Visual Learners [95.59258503297195]
本稿では、事前学習したVTをオーディオ視覚タスクに適応させる潜在型オーディオ視覚ハイブリッド(LAVISH)アダプタを提案する。
提案手法は,様々な視覚的タスクにおいて,競争力や性能の向上を実現する。
論文 参考訳(メタデータ) (2022-12-15T17:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。