論文の概要: Audio-Driven Talking Face Video Generation with Dynamic Convolution
Kernels
- arxiv url: http://arxiv.org/abs/2201.05986v1
- Date: Sun, 16 Jan 2022 07:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 17:49:59.173181
- Title: Audio-Driven Talking Face Video Generation with Dynamic Convolution
Kernels
- Title(参考訳): 動的畳み込みカーネルを用いた音声駆動型顔映像生成
- Authors: Zipeng Ye, Mengfei Xia, Ran Yi, Juyong Zhang, Yu-Kun Lai, Xuwei Huang,
Guoxin Zhang, Yong-jin Liu
- Abstract要約: 畳み込みニューラルネットワークのための動的畳み込みカーネル(DCK)戦略を提案する。
提案したDCKと完全畳み込みネットワークを用いて,マルチモーダル音源から高品質な音声映像を生成することができる。
トレーニングされたモデルは、異なるアイデンティティ、頭部姿勢、入力オーディオに対して堅牢です。
- 参考スコア(独自算出の注目度): 73.58995430589393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a dynamic convolution kernel (DCK) strategy for
convolutional neural networks. Using a fully convolutional network with the
proposed DCKs, high-quality talking-face video can be generated from
multi-modal sources (i.e., unmatched audio and video) in real time, and our
trained model is robust to different identities, head postures, and input
audios. Our proposed DCKs are specially designed for audio-driven talking face
video generation, leading to a simple yet effective end-to-end system. We also
provide a theoretical analysis to interpret why DCKs work. Experimental results
show that our method can generate high-quality talking-face video with
background at 60 fps. Comparison and evaluation between our method and the
state-of-the-art methods demonstrate the superiority of our method.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワークのための動的畳み込みカーネル(DCK)戦略を提案する。
提案するdckと完全畳み込みネットワークを用いて,マルチモーダル音源(例えば不一致音声とビデオ)から高品質な対話映像をリアルタイムで生成し,訓練したモデルは異なるアイデンティティ,頭部姿勢,入力音声に対して頑健である。
提案するDCKは,音声駆動による音声音声合成に特化して設計されており,シンプルで効果的なエンドツーエンドシステムを実現している。
また、DCKがなぜ機能するのかを理論的に解析する。
実験の結果,60fpsで高品質な対話型ビデオを生成することができた。
本手法と最先端手法の比較と評価は,本手法の優位性を示している。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures [27.763304632981882]
DiffTEDは、1つの画像から1ショットの音声駆動音声ビデオを生成する新しいアプローチである。
我々は拡散モデルを利用して、薄膜スプライン運動モデルのためのキーポイントのシーケンスを生成する。
実験により、DiffTEDは多様な音声のジェスチャーによる時間的コヒーレントな会話ビデオを生成することが示された。
論文 参考訳(メタデータ) (2024-09-11T22:31:55Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - Audio-Visual Face Reenactment [34.79242760137663]
本研究は,音声とビジュアルストリームを用いて,リアルな音声ヘッドビデオを生成する新しい手法を提案する。
学習可能なキーポイントを用いて発生する濃密な運動場を用いて、運転映像から頭部の動きを伝達することにより、音源画像のアニメーション化を行う。
我々は、音声を付加入力としてリップシンクの質を改善し、そのネットワークが口領域に到達するのを手助けする。
論文 参考訳(メタデータ) (2022-10-06T08:48:10Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。