論文の概要: Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2306.17203v1
- Date: Thu, 29 Jun 2023 12:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 14:20:59.060128
- Title: Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion
Models
- Title(参考訳): Diff-Foley:潜時拡散モデルを用いたビデオとオーディオの同期合成
- Authors: Simian Luo, Chuanhao Yan, Chenxu Hu, Hang Zhao
- Abstract要約: Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。
我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
- 参考スコア(独自算出の注目度): 12.898486592791604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Video-to-Audio (V2A) model has recently gained attention for its
practical application in generating audio directly from silent videos,
particularly in video/film production. However, previous methods in V2A have
limited generation quality in terms of temporal synchronization and
audio-visual relevance. We present Diff-Foley, a synchronized Video-to-Audio
synthesis method with a latent diffusion model (LDM) that generates
high-quality audio with improved synchronization and audio-visual relevance. We
adopt contrastive audio-visual pretraining (CAVP) to learn more temporally and
semantically aligned features, then train an LDM with CAVP-aligned visual
features on spectrogram latent space. The CAVP-aligned features enable LDM to
capture the subtler audio-visual correlation via a cross-attention module. We
further significantly improve sample quality with `double guidance'. Diff-Foley
achieves state-of-the-art V2A performance on current large scale V2A dataset.
Furthermore, we demonstrate Diff-Foley practical applicability and
generalization capabilities via downstream finetuning. Project Page: see
https://diff-foley.github.io/
- Abstract(参考訳): video-to-audio(v2a)モデルは、最近、サイレントビデオ、特にビデオ/フィルム制作から直接音声を生成する実践的応用で注目を集めている。
しかし、V2Aの従来の手法は、時間同期と音声・視覚的関連性の観点からは、生成品質が限られていた。
そこで本稿では,遅延拡散モデル(ldm)を用いた映像から音声への同期合成法であるdiff-foleyを提案する。
コントラッシブ・オーディオ・ビジュアル・プレトレーニング(CAVP)を用いて、より時間的・意味的に整合した特徴を学習し、スペクトル潜在空間上でCAVPに整合した視覚特徴を持つLCMを訓練する。
cavp対応の機能により、ldmはクロスアテンションモジュールを介してより微妙なオーディオと視覚の相関を捉えることができる。
さらに,「二重ガイダンス」によりサンプル品質を著しく改善する。
Diff-Foleyは、現在の大規模V2Aデータセットで最先端のV2Aパフォーマンスを達成する。
さらに,下流微調整によるdiff-foleyの実用的適用可能性と一般化能力を示す。
プロジェクトページ: https://diff-foley.github.io/
関連論文リスト
- Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [28.172213291270868]
フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。
Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。
我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
論文 参考訳(メタデータ) (2024-09-10T01:07:20Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。