論文の概要: Controllable One-Shot Face Video Synthesis With Semantic Aware Prior
- arxiv url: http://arxiv.org/abs/2304.14471v1
- Date: Thu, 27 Apr 2023 19:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 16:05:50.046204
- Title: Controllable One-Shot Face Video Synthesis With Semantic Aware Prior
- Title(参考訳): セマンティック・アウェアによるワンショット顔合成の制御
- Authors: Kangning Liu, Yu-Chuan Su, Wei (Alex) Hong, Ruijin Cang, Xuhui Jia
- Abstract要約: ワンショットトーキングヘッド合成タスクは、ソースイメージを他のポーズと表現にアニメーションすることを目的としており、これは駆動フレームによって予測される。
近年の手法では,スパースキーポイントから推定される運動場を教師なしの方法で学習することにより,ソースから抽出した外観特徴のゆがみに頼っている。
本稿では,豊かな顔の事前情報を活用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.968343822308812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The one-shot talking-head synthesis task aims to animate a source image to
another pose and expression, which is dictated by a driving frame. Recent
methods rely on warping the appearance feature extracted from the source, by
using motion fields estimated from the sparse keypoints, that are learned in an
unsupervised manner. Due to their lightweight formulation, they are suitable
for video conferencing with reduced bandwidth. However, based on our study,
current methods suffer from two major limitations: 1) unsatisfactory generation
quality in the case of large head poses and the existence of observable pose
misalignment between the source and the first frame in driving videos. 2) fail
to capture fine yet critical face motion details due to the lack of semantic
understanding and appropriate face geometry regularization. To address these
shortcomings, we propose a novel method that leverages the rich face prior
information, the proposed model can generate face videos with improved semantic
consistency (improve baseline by $7\%$ in average keypoint distance) and
expression-preserving (outperform baseline by $15 \%$ in average emotion
embedding distance) under equivalent bandwidth. Additionally, incorporating
such prior information provides us with a convenient interface to achieve
highly controllable generation in terms of both pose and expression.
- Abstract(参考訳): ワンショットトークヘッド合成タスクは、ソースイメージを別のポーズと表情にアニメーションすることを目的としており、これは駆動フレームによって指示される。
近年の手法では,スパースキーポイントから推定される運動場を教師なしで学習することにより,ソースから抽出した外観特徴のゆがみに頼っている。
軽量な定式化のため、帯域幅を削減したビデオ会議に適している。
しかし、本研究では、現在の手法には2つの大きな制限がある。
1)大頭ポーズの場合の良好な生成品質、及び駆動映像における音源と第1フレームとの間の観察可能なポーズ不一致の存在。
2) 意味的理解の欠如と適切な顔形状の規則化のため, 細かな顔の動きの詳細を捉えることができない。
これらの欠点に対処するために,提案手法では,リッチ・フェイス・プリエント情報を利用する新しい手法を提案する。提案手法では,意味的一貫性(平均キーポイント距離で7〜0%)と表現保存(平均感情埋め込み距離で15〜$$$のoutperform base)を等価な帯域幅で生成することができる。
さらに、このような事前情報を取り入れることで、ポーズと表現の両面で高度に制御可能な生成を実現するための便利なインターフェースを提供する。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Correcting Face Distortion in Wide-Angle Videos [85.88898349347149]
これらの歪みを補正するビデオワープアルゴリズムを提案する。
私たちのキーとなるアイデアは、顔領域に局所的に立体投影を適用することです。
性能評価のために,焦点距離の広い広角ビデオデータセットを開発した。
論文 参考訳(メタデータ) (2021-11-18T21:28:17Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。