論文の概要: DINet: Deformation Inpainting Network for Realistic Face Visually
Dubbing on High Resolution Video
- arxiv url: http://arxiv.org/abs/2303.03988v1
- Date: Tue, 7 Mar 2023 15:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:46:36.754350
- Title: DINet: Deformation Inpainting Network for Realistic Face Visually
Dubbing on High Resolution Video
- Title(参考訳): DINet:高解像度ビデオによるリアルな顔ダビングのための変形塗装ネットワーク
- Authors: Zhimeng Zhang, Zhipeng Hu, Wenjin Deng, Changjie Fan, Tangjie Lv, Yu
Ding
- Abstract要約: それまでの作業では、高忠実度ダビングの結果が得られなかった。
本稿では,高分解能顔ダビングのための変形塗装ネットワーク(DINet)を提案する。
- 参考スコア(独自算出の注目度): 25.26209932017221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For few-shot learning, it is still a critical challenge to realize
photo-realistic face visually dubbing on high-resolution videos. Previous works
fail to generate high-fidelity dubbing results. To address the above problem,
this paper proposes a Deformation Inpainting Network (DINet) for
high-resolution face visually dubbing. Different from previous works relying on
multiple up-sample layers to directly generate pixels from latent embeddings,
DINet performs spatial deformation on feature maps of reference images to
better preserve high-frequency textural details. Specifically, DINet consists
of one deformation part and one inpainting part. In the first part, five
reference facial images adaptively perform spatial deformation to create
deformed feature maps encoding mouth shapes at each frame, in order to align
with the input driving audio and also the head poses of the input source
images. In the second part, to produce face visually dubbing, a feature decoder
is responsible for adaptively incorporating mouth movements from the deformed
feature maps and other attributes (i.e., head pose and upper facial expression)
from the source feature maps together. Finally, DINet achieves face visually
dubbing with rich textural details. We conduct qualitative and quantitative
comparisons to validate our DINet on high-resolution videos. The experimental
results show that our method outperforms state-of-the-art works.
- Abstract(参考訳): 数ショットの学習では、高解像度のビデオで写実的な顔を視覚的にダビングすることは依然として重要な課題だ。
以前の作業では、高忠実度ダビングの結果が得られなかった。
上記の問題に対処するために,高解像度な顔ダビングのための変形塗装ネットワーク (DINet) を提案する。
潜在埋め込みからピクセルを直接生成するために複数のアップサンプル層に依存する以前の作品とは異なり、dinetは参照画像の特徴マップ上で空間的変形を実行し、高周波のテクスチャの詳細を保存する。
具体的には、DINetは、1つの変形部と1つの塗装部とからなる。
第1部では、5つの参照顔画像が空間的変形を適応して行い、各フレームで口形を符号化した変形特徴マップを作成し、入力された駆動オーディオや入力元画像の頭部ポーズと整合させる。
第2部では、顔のダビングを製造するために、変形した特徴地図と他の属性(例えば、頭部ポーズ及び上顔表情)から口の動きを適応的に取り入れる機能デコーダをソース特徴地図から組み込む。
最後に、DINetは、リッチなテクスチャディテールで顔のダビングを実現する。
高解像度ビデオ上でのDINetの質的,定量的な比較を行う。
実験の結果,本手法は最先端の作業よりも優れていた。
関連論文リスト
- Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Saliency-based Video Summarization for Face Anti-spoofing [4.730428911461921]
本稿では,ビジュアル・サリエンシを活用して,ディープラーニングモデルの性能向上を目的とした,顔のアンチ・スプーフィング検出のための映像要約手法を提案する。
特に、ソース画像のラプラシアンフィルタ出力とウィーナーフィルタ出力との差から、サリエンシ情報を抽出する。
重み付けマップは、画像中の各ピクセルの重要性を示す唾液度情報に基づいて計算される。
論文 参考訳(メタデータ) (2023-08-23T18:08:32Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - VToonify: Controllable High-Resolution Portrait Video Style Transfer [103.54337984566877]
制御可能な高解像度のポートレートビデオスタイル転送のための新しいVToonifyフレームワークを提案する。
エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて,StyleGANの中間層と高解像度層を利用して芸術的な肖像画を描画する。
我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。
論文 参考訳(メタデータ) (2022-09-22T17:59:10Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Neural Re-Rendering of Humans from a Single Image [80.53438609047896]
本稿では,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。
私たちのアルゴリズムは、単一の画像から再構築できるパラメトリックメッシュとして体ポーズと形状を表します。
論文 参考訳(メタデータ) (2021-01-11T18:53:47Z) - Multiple Exemplars-based Hallucinationfor Face Super-resolution and
Editing [38.257982713474874]
顔の低解像度な入力画像が与えられた場合,本論文の目的は,その高解像度版を再構成することである。
我々は、同じ人物の他の高解像度画像の集合である、模範の集合の使用について検討する。
複数の例から得られる情報を効果的に組み合わせるために,画素単位の重み生成モジュールを導入する。
論文 参考訳(メタデータ) (2020-09-16T17:35:26Z) - Domain Embedded Multi-model Generative Adversarial Networks for
Image-based Face Inpainting [44.598234654270584]
そこで本研究では,大規模刈り取り領域で顔画像の塗布を行うためのドメイン組込み多モデル生成逆数モデルを提案する。
CelebAとCelebA-HQの両方の顔データセットに対する実験により、提案手法が最先端の性能を達成したことを示す。
論文 参考訳(メタデータ) (2020-02-05T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。