論文の概要: AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2412.15191v1
- Date: Thu, 19 Dec 2024 18:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:23.492728
- Title: AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
- Title(参考訳): AV-Link:クロスモーダルオーディオビデオ生成のための時間調整拡散機能
- Authors: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov,
- Abstract要約: AV-Linkは、ビデオ・トゥ・オーディオとオーディオ・トゥ・ビデオ生成のための統合されたフレームワークである。
バックボーンビデオとオーディオ拡散モデル間の双方向情報交換を可能にするFusion Blockを提案する。
設計選択を評価し,同期・高品質な映像コンテンツを実現するための手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 49.6922496382879
- License:
- Abstract: We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video generation that leverages the activations of frozen video and audio diffusion models for temporally-aligned cross-modal conditioning. The key to our framework is a Fusion Block that enables bidirectional information exchange between our backbone video and audio diffusion models through a temporally-aligned self attention operation. Unlike prior work that uses feature extractors pretrained for other tasks for the conditioning signal, AV-Link can directly leverage features obtained by the complementary modality in a single framework i.e. video features to generate audio, or audio features to generate video. We extensively evaluate our design choices and demonstrate the ability of our method to achieve synchronized and high-quality audiovisual content, showcasing its potential for applications in immersive media generation. Project Page: snap-research.github.io/AVLink/
- Abstract(参考訳): AV-Linkは,凍結映像と音声拡散モデルのアクティベーションを利用して,時間的に整列したクロスモーダルコンディショニングを実現する,ビデオ・ツー・オーディオ・オーディオ・ツー・ビデオ生成のための統合フレームワークである。
我々のフレームワークの鍵はFusion Blockで、時間的に整列したセルフアテンション操作によって、バックボーンビデオとオーディオ拡散モデル間の双方向情報交換を可能にする。
コンディショニング信号のための他のタスクのために事前訓練された特徴抽出器を使用する以前の作業とは異なり、AV-Linkは単一のフレームワークにおいて相補的モダリティによって得られる特徴を直接活用することができる。
我々は、我々の設計選択を広く評価し、同期された高品質な映像コンテンツを実現するための手法の能力を実証し、没入型メディア生成におけるその可能性を示す。
プロジェクトページ: snap-research.github.io/AVLink/
関連論文リスト
- UniForm: A Unified Diffusion Transformer for Audio-Video Generation [46.1185397912308]
UniFormは、クロスモーダル整合性を高めるために設計された統合拡散変換器である。
聴覚情報と視覚情報を結合することにより、UniFormは音声と映像を同時に生成することを学ぶ。
実験では, 共同音声合成, オーディオ誘導映像生成, 映像誘導音声生成タスクにおいて, 提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-06T09:18:30Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion
Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。
我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文 参考訳(メタデータ) (2023-06-29T12:39:58Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。