論文の概要: Speech Driven Video Editing via an Audio-Conditioned Diffusion Model
- arxiv url: http://arxiv.org/abs/2301.04474v3
- Date: Thu, 11 May 2023 11:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:08:40.627426
- Title: Speech Driven Video Editing via an Audio-Conditioned Diffusion Model
- Title(参考訳): 音声合成拡散モデルによる音声駆動映像編集
- Authors: Dan Bigioi, Shubhajit Basak, Micha{\l} Stypu{\l}kowski, Maciej
Zi\k{e}ba, Hugh Jordan, Rachel McDonnell, Peter Corcoran
- Abstract要約: 本稿では,デノナイズ拡散モデルを用いたエンドツーエンド音声駆動ビデオ編集手法を提案する。
音声メルスペクトル特徴量にデノナイジング拡散モデルを適用して、顔の動きを同期させることにより、これを実現できることを示す。
我々の知る限りでは、音声駆動ビデオ編集のタスクにエンド・ツー・エンド・エンド・デノナイズ・ディノナイズ・ディフュージョン・モデルの適用可能性を実証し、検証する最初の試みである。
- 参考スコア(独自算出の注目度): 1.6763474728913939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taking inspiration from recent developments in visual generative tasks using
diffusion models, we propose a method for end-to-end speech-driven video
editing using a denoising diffusion model. Given a video of a talking person,
and a separate auditory speech recording, the lip and jaw motions are
re-synchronized without relying on intermediate structural representations such
as facial landmarks or a 3D face model. We show this is possible by
conditioning a denoising diffusion model on audio mel spectral features to
generate synchronised facial motion. Proof of concept results are demonstrated
on both single-speaker and multi-speaker video editing, providing a baseline
model on the CREMA-D audiovisual data set. To the best of our knowledge, this
is the first work to demonstrate and validate the feasibility of applying
end-to-end denoising diffusion models to the task of audio-driven video
editing.
- Abstract(参考訳): 拡散モデルを用いた視覚生成タスクの最近の発展から着想を得て,デノナイズド拡散モデルを用いたエンドツーエンドのビデオ編集手法を提案する。
話し手のビデオと別個の聴覚音声記録が与えられた場合、顔のランドマークや3D顔モデルなどの中間構造表現に頼ることなく、唇と顎の動きを再同期する。
音声メルスペクトル特徴量にデノナイジング拡散モデルを適用して、顔の動きを同期させることにより、これを実現できることを示す。
単一話者と複数話者のビデオ編集において,概念実証結果が実証され,CREMA-Dオーディオヴィジュアルデータセットのベースラインモデルが提供される。
私たちの知る限りでは、これは音声駆動ビデオ編集のタスクにエンドツーエンドのデノベーション拡散モデルを適用することの可能性を実証し、検証した最初の作品です。
関連論文リスト
- SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models [21.669044026456557]
本稿では,大規模画像拡散モデルにおける音声条件設定を実現する手法を提案する。
音声条件付き画像生成に加えて,拡散に基づく編集手法との共役にも利用することができる。
論文 参考訳(メタデータ) (2024-05-01T21:43:57Z) - Synthesizing Audio from Silent Video using Sequence to Sequence Modeling [0.0]
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,ビデオから音声を生成する新しい手法を提案する。
本手法では3次元ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて映像の空間的・時間的構造を捉える。
本モデルは,CCTV映像解析,サイレント映画復元,映像生成モデルなどの応用性の向上を目的としている。
論文 参考訳(メタデータ) (2024-04-25T22:19:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Audiovisual Saliency Prediction in Uncategorized Video Sequences based
on Audio-Video Correlation [0.0]
本研究の目的は,低レベルの音声と映像の特徴を同期して計算した音声サリエンシーマップと視覚サリエンシーマップを補完する汎用的な音声/ビデオサリエンシーモデルを提供することである。
提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。
論文 参考訳(メタデータ) (2021-01-07T14:22:29Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。