論文の概要: UniForm: A Unified Diffusion Transformer for Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2502.03897v2
- Date: Sat, 08 Feb 2025 09:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 10:46:17.479974
- Title: UniForm: A Unified Diffusion Transformer for Audio-Video Generation
- Title(参考訳): UniForm:オーディオビデオ生成のための統一拡散変換器
- Authors: Lei Zhao, Linfeng Feng, Dongxu Ge, Fangqiu Yi, Chi Zhang, Xiao-Lei Zhang, Xuelong Li,
- Abstract要約: UniFormは、クロスモーダル整合性を高めるために設計された統合拡散変換器である。
聴覚情報と視覚情報を結合することにより、UniFormは音声と映像を同時に生成することを学ぶ。
実験では, 共同音声合成, オーディオ誘導映像生成, 映像誘導音声生成タスクにおいて, 提案手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 46.1185397912308
- License:
- Abstract: As a natural multimodal content, audible video delivers an immersive sensory experience. Consequently, audio-video generation systems have substantial potential. However, existing diffusion-based studies mainly employ relatively independent modules for generating each modality, which lack exploration of shared-weight generative modules. This approach may under-use the intrinsic correlations between audio and visual modalities, potentially resulting in sub-optimal generation quality. To address this, we propose UniForm, a unified diffusion transformer designed to enhance cross-modal consistency. By concatenating auditory and visual information, UniForm learns to generate audio and video simultaneously within a unified latent space, facilitating the creation of high-quality and well-aligned audio-visual pairs. Extensive experiments demonstrate the superior performance of our method in joint audio-video generation, audio-guided video generation, and video-guided audio generation tasks. Our demos are available at https://uniform-t2av.github.io/.
- Abstract(参考訳): 自然なマルチモーダルコンテンツとして、可聴ビデオは没入的な感覚体験を提供する。
その結果、オーディオビデオ生成システムは大きな可能性を秘めている。
しかし、既存の拡散に基づく研究は主に、共有重み付け生成モジュールの探索を欠く各モードを生成するために、比較的独立したモジュールを用いる。
このアプローチは、音声と視覚的モダリティの本質的な相関を過小評価し、最適以下の生成品質をもたらす可能性がある。
そこで本研究では,相互整合性向上を目的とした統合拡散変換器UniFormを提案する。
聴覚情報と視覚情報を結合することにより、UniFormは、統一された潜在空間内で同時にオーディオとビデオを生成することを学び、高品質で整合したオーディオと視覚のペアの作成を容易にする。
広汎な実験により, 共同映像生成, オーディオ誘導映像生成, 映像誘導音声生成タスクにおいて, 提案手法の優れた性能を示すことができた。
私たちのデモはhttps://uniform-t2av.github.io/で公開されています。
関連論文リスト
- Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。
空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation [24.349512234085644]
本稿では,マルチモーダル生成において十分に検討されていない,シンプルで軽量な生成変換器について述べる。
トランスは離散オーディオおよび視覚ベクトル量子化GAN空間で動作し、マスクを装飾的に訓練する。
実験の結果,本手法は最新の画像2audio 生成法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-05-23T14:13:16Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。