論文の概要: Speech Driven Video Editing via an Audio-Conditioned Diffusion Model
- arxiv url: http://arxiv.org/abs/2301.04474v1
- Date: Tue, 10 Jan 2023 12:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:38:19.752082
- Title: Speech Driven Video Editing via an Audio-Conditioned Diffusion Model
- Title(参考訳): 音声合成拡散モデルによる音声駆動映像編集
- Authors: Dan Bigioi, Shubhajit Basak, Hugh Jordan, Rachel McDonnell, Peter
Corcoran
- Abstract要約: 本稿では,デノナイズ拡散モデルを用いたエンドツーエンド音声駆動ビデオ編集手法を提案する。
音声スペクトル特徴を持つ偏波拡散モデルの条件付けにより、顔の動きを同期させることにより、これを実現できることを示す。
我々は,非構造化単一話者ビデオ編集作業において,単語誤り率45%を達成し,説得力のある結果を得た。
- 参考スコア(独自算出の注目度): 1.5556923898855324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a method for end-to-end speech driven video editing
using a denoising diffusion model. Given a video of a person speaking, we aim
to re-synchronise the lip and jaw motion of the person in response to a
separate auditory speech recording without relying on intermediate structural
representations such as facial landmarks or a 3D face model. We show this is
possible by conditioning a denoising diffusion model with audio spectral
features to generate synchronised facial motion. We achieve convincing results
on the task of unstructured single-speaker video editing, achieving a word
error rate of 45% using an off the shelf lip reading model. We further
demonstrate how our approach can be extended to the multi-speaker domain. To
our knowledge, this is the first work to explore the feasibility of applying
denoising diffusion models to the task of audio-driven video editing.
- Abstract(参考訳): 本稿では,雑音拡散モデルを用いたエンド・ツー・エンド音声映像編集手法を提案する。
話し手の映像から,顔のランドマークや3次元顔モデルなどの中間的構造表現に頼ることなく,別の聴覚音声記録に応答して,人の唇と顎の動きを再同期させることが目的である。
音声スペクトル特徴を持つ偏波拡散モデルを用いて、同期顔の動きを生成することで、これを実現できることを示す。
そこで本研究では,非構造化単一話者ビデオ編集作業において,オフセルフリップ読解モデルを用いて単語誤り率45%を達成し,説得力のある結果を得た。
さらに、我々のアプローチがマルチスピーカー領域にどのように拡張できるかを示す。
我々の知る限り、これは音声駆動ビデオ編集のタスクに難読化拡散モデルを適用する可能性を探る最初の試みである。
関連論文リスト
- SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models [21.669044026456557]
本稿では,大規模画像拡散モデルにおける音声条件設定を実現する手法を提案する。
音声条件付き画像生成に加えて,拡散に基づく編集手法との共役にも利用することができる。
論文 参考訳(メタデータ) (2024-05-01T21:43:57Z) - Synthesizing Audio from Silent Video using Sequence to Sequence Modeling [0.0]
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,ビデオから音声を生成する新しい手法を提案する。
本手法では3次元ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて映像の空間的・時間的構造を捉える。
本モデルは,CCTV映像解析,サイレント映画復元,映像生成モデルなどの応用性の向上を目的としている。
論文 参考訳(メタデータ) (2024-04-25T22:19:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Audiovisual Saliency Prediction in Uncategorized Video Sequences based
on Audio-Video Correlation [0.0]
本研究の目的は,低レベルの音声と映像の特徴を同期して計算した音声サリエンシーマップと視覚サリエンシーマップを補完する汎用的な音声/ビデオサリエンシーモデルを提供することである。
提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。
論文 参考訳(メタデータ) (2021-01-07T14:22:29Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。