論文の概要: Audio-Visual Face Reenactment
- arxiv url: http://arxiv.org/abs/2210.02755v1
- Date: Thu, 6 Oct 2022 08:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:44:00.970264
- Title: Audio-Visual Face Reenactment
- Title(参考訳): 音声-視覚面の再現
- Authors: Madhav Agarwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar
- Abstract要約: 本研究は,音声とビジュアルストリームを用いて,リアルな音声ヘッドビデオを生成する新しい手法を提案する。
学習可能なキーポイントを用いて発生する濃密な運動場を用いて、運転映像から頭部の動きを伝達することにより、音源画像のアニメーション化を行う。
我々は、音声を付加入力としてリップシンクの質を改善し、そのネットワークが口領域に到達するのを手助けする。
- 参考スコア(独自算出の注目度): 34.79242760137663
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work proposes a novel method to generate realistic talking head videos
using audio and visual streams. We animate a source image by transferring head
motion from a driving video using a dense motion field generated using
learnable keypoints. We improve the quality of lip sync using audio as an
additional input, helping the network to attend to the mouth region. We use
additional priors using face segmentation and face mesh to improve the
structure of the reconstructed faces. Finally, we improve the visual quality of
the generations by incorporating a carefully designed identity-aware generator
module. The identity-aware generator takes the source image and the warped
motion features as input to generate a high-quality output with fine-grained
details. Our method produces state-of-the-art results and generalizes well to
unseen faces, languages, and voices. We comprehensively evaluate our approach
using multiple metrics and outperforming the current techniques both
qualitative and quantitatively. Our work opens up several applications,
including enabling low bandwidth video calls. We release a demo video and
additional information at
http://cvit.iiit.ac.in/research/projects/cvit-projects/avfr.
- Abstract(参考訳): 本研究は,音声と視覚ストリームを用いたリアルな音声ヘッドビデオ生成手法を提案する。
学習可能なキーポイントで生成された密集した動き場を用いて、駆動映像から頭の動きを転送して音源画像をアニメーション化する。
我々は、音声を付加入力としてリップシンクの質を改善し、ネットワークが口領域に参加するのを助ける。
さらに,顔のセグメンテーションと顔メッシュを用いて,再建した顔の構造を改善する。
最後に、慎重に設計されたID対応ジェネレータモジュールを組み込むことにより、世代ごとの視覚的品質を向上させる。
アイデンティティ対応ジェネレータは、ソース画像と歪んだ動作特徴を入力として、きめ細かい細部で高品質な出力を生成する。
提案手法は最先端の結果を生成し,未知の顔,言語,音声によく当てはまる。
我々は、複数のメトリクスを用いてアプローチを包括的に評価し、定性的かつ定量的に現在の手法より優れている。
我々の作業は、低帯域幅のビデオ通話など、いくつかのアプリケーションを開く。
デモビデオと追加情報をhttp://cvit.iiit.ac.in/research/projects/cvit-projects/avfrで公開します。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - HyperLips: Hyper Control Lips with High Resolution Decoder for Talking
Face Generation [21.55822398346139]
HyperLipsは2段階のフレームワークで、唇を制御するハイパーネットワークと、高忠実度顔のレンダリングを行う高解像度デコーダで構成されている。
第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。
第2段階では,高精細デコーダを用いて高品質な顔映像を得る。
論文 参考訳(メタデータ) (2023-10-09T13:45:21Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。