Fugu-MT 論文翻訳(概要): AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

論文の概要: AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

arxiv url: http://arxiv.org/abs/2412.15191v1
Date: Thu, 19 Dec 2024 18:57:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.270326
Title: AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
Title（参考訳）: AV-Link:クロスモーダルオーディオビデオ生成のための時間調整拡散機能
Authors: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov,
Abstract要約: AV-Linkは、ビデオ・トゥ・オーディオとオーディオ・トゥ・ビデオ生成のための統合されたフレームワークである。バックボーンビデオとオーディオ拡散モデル間の双方向情報交換を可能にするFusion Blockを提案する。設計選択を評価し,同期・高品質な映像コンテンツを実現するための手法の有効性を実証する。
参考スコア（独自算出の注目度）: 49.6922496382879
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video generation that leverages the activations of frozen video and audio diffusion models for temporally-aligned cross-modal conditioning. The key to our framework is a Fusion Block that enables bidirectional information exchange between our backbone video and audio diffusion models through a temporally-aligned self attention operation. Unlike prior work that uses feature extractors pretrained for other tasks for the conditioning signal, AV-Link can directly leverage features obtained by the complementary modality in a single framework i.e. video features to generate audio, or audio features to generate video. We extensively evaluate our design choices and demonstrate the ability of our method to achieve synchronized and high-quality audiovisual content, showcasing its potential for applications in immersive media generation. Project Page: snap-research.github.io/AVLink/
Abstract（参考訳）: AV-Linkは,凍結映像と音声拡散モデルのアクティベーションを利用して,時間的に整列したクロスモーダルコンディショニングを実現する,ビデオ・ツー・オーディオ・オーディオ・ツー・ビデオ生成のための統合フレームワークである。我々のフレームワークの鍵はFusion Blockで、時間的に整列したセルフアテンション操作によって、バックボーンビデオとオーディオ拡散モデル間の双方向情報交換を可能にする。コンディショニング信号のための他のタスクのために事前訓練された特徴抽出器を使用する以前の作業とは異なり、AV-Linkは単一のフレームワークにおいて相補的モダリティによって得られる特徴を直接活用することができる。我々は、我々の設計選択を広く評価し、同期された高品質な映像コンテンツを実現するための手法の能力を実証し、没入型メディア生成におけるその可能性を示す。プロジェクトページ: snap-research.github.io/AVLink/

関連論文リスト

TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。 TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文参考訳（メタデータ） (2024-10-05T16:30:46Z)
From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。 VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文参考訳（メタデータ） (2024-09-27T20:26:34Z)
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [28.172213291270868]
フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。 Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
論文参考訳（メタデータ） (2024-09-10T01:07:20Z)
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation [33.315479764894086]
AV-DiTは,新規かつ効率的な音声・視覚拡散変換器である。画像のみのデータに基づいて事前訓練された共有DiTバックボーンは、オーディオおよびビデオの生成を容易にする。 AIST++とLandscapeデータセットの実験は、AV-DiTが関節型オーディオ視覚生成において最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-06-11T20:05:58Z)
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs [55.82090875098132]
VideoLLaMA 2は、ビデオおよびオーディオ指向タスクにおける時空間モデリングと音声理解を強化するために設計されたビデオ大言語モデル(Video Large Language Models, Video-LLMs)のセットである。 VideoLLaMA 2は、オープンソースモデル間の競争結果を一貫して達成し、いくつかのベンチマークでいくつかのプロプライエタリなモデルに近づいた。
論文参考訳（メタデータ） (2024-06-11T17:22:23Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文参考訳（メタデータ） (2023-06-29T12:39:58Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。