論文の概要: DPE: Disentanglement of Pose and Expression for General Video Portrait
Editing
- arxiv url: http://arxiv.org/abs/2301.06281v1
- Date: Mon, 16 Jan 2023 06:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:26:43.421496
- Title: DPE: Disentanglement of Pose and Expression for General Video Portrait
Editing
- Title(参考訳): dpe:一般ビデオ・ポートレート編集におけるポーズと表情の絡み合い
- Authors: Youxin Pang, Yong Zhang, Weize Quan, Yanbo Fan, Xiaodong Cun, Ying
Shan, Dong-ming Yan
- Abstract要約: ワンショット映像駆動音声生成は、映像から任意の肖像画に顔の動きを移して合成音声を生成することを目的としている。
本稿では,3DMMとペアデータなしでポーズと表現を分離する,新しい自己教師型アンタングル化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.1002454931945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot video-driven talking face generation aims at producing a synthetic
talking video by transferring the facial motion from a video to an arbitrary
portrait image. Head pose and facial expression are always entangled in facial
motion and transferred simultaneously. However, the entanglement sets up a
barrier for these methods to be used in video portrait editing directly, where
it may require to modify the expression only while maintaining the pose
unchanged. One challenge of decoupling pose and expression is the lack of
paired data, such as the same pose but different expressions. Only a few
methods attempt to tackle this challenge with the feat of 3D Morphable Models
(3DMMs) for explicit disentanglement. But 3DMMs are not accurate enough to
capture facial details due to the limited number of Blenshapes, which has side
effects on motion transfer. In this paper, we introduce a novel self-supervised
disentanglement framework to decouple pose and expression without 3DMMs and
paired data, which consists of a motion editing module, a pose generator, and
an expression generator. The editing module projects faces into a latent space
where pose motion and expression motion can be disentangled, and the pose or
expression transfer can be performed in the latent space conveniently via
addition. The two generators render the modified latent codes to images,
respectively. Moreover, to guarantee the disentanglement, we propose a
bidirectional cyclic training strategy with well-designed constraints.
Evaluations demonstrate our method can control pose or expression independently
and be used for general video editing.
- Abstract(参考訳): ワンショット映像駆動音声生成は、映像から任意の肖像画に顔の動きを移すことにより合成音声映像を作成することを目的としている。
頭ポーズと表情は常に顔の動きに絡まっており、同時に移動している。
しかし、この絡み合いは、これらの手法が直接ビデオのポートレート編集に使用されるための障壁を設定し、ポーズを変更せずに表現を変更する必要がある。
ポーズと表現を分離する1つの課題は、同じポーズだが異なる表現のようなペアデータの欠如である。
3D Morphable Models (3DMMs) の成果によって、この課題に対処しようとする方法はごくわずかである。
しかし、3dmmは、ブレイン形状が限られており、動きの伝達に副作用があるため、顔の詳細を捉えるのに十分な精度はない。
本稿では,3dmmを使わずにポーズと表情を分離し,モーション編集モジュール,ポーズ生成器,表情生成器からなるペアデータを生成するための,新しい自己教師付きディスタングルフレームワークを提案する。
編集モジュールは、ポーズ動作及び表現動作が切り離され得る潜伏空間に面を投影し、追加により潜伏空間においてポーズ又は表現伝達を都合よく行うことができる。
2つのジェネレータはそれぞれ修正された潜伏符号を画像に描画する。
さらに, 絡み合うことを保証するため, 設計制約を十分に満たした双方向巡回訓練戦略を提案する。
評価は,ポーズや表情を独立に制御し,一般的な映像編集に使用できることを示す。
関連論文リスト
- MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing [90.30646271720919]
新規ビュー合成(NVS)と3D生成は、最近顕著に改善されている。
我々はMVInpainterを提案し、3D編集を多視点2Dインペインティングタスクとして再フォーマットする。
MVInpainterは、スクラッチから完全に新しいビューを生成するのではなく、参照ガイダンスで複数のビューイメージを部分的に描き込む。
論文 参考訳(メタデータ) (2024-08-15T07:57:28Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - POCE: Pose-Controllable Expression Editing [75.7701103792032]
本稿では,新しいポーズ制御可能な表現編集ネットワークであるPOCEについて述べる。
リアルな表情と頭ポーズを同時に生成できる。
学習したモデルは、様々な新しいポーズの下で、現実的で高忠実な表情を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T12:26:19Z) - Continuously Controllable Facial Expression Editing in Talking Face
Videos [34.83353695337335]
言語関連表現と感情関連表現はしばしば高結合である。
従来の画像から画像への変換手法は、我々のアプリケーションではうまく機能しない。
そこで本研究では,音声合成のための高品質な表情編集手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T09:05:47Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - 3D GAN Inversion for Controllable Portrait Image Animation [45.55581298551192]
我々は新たに開発された3D GANを活用し、マルチビュー一貫性のある画像対象のポーズを明示的に制御できる。
ポートレート・イメージ・アニメーションの手法は、画像の品質、アイデンティティの保存、ポーズ・トランスファーの点で、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-25T04:06:06Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Pixel Sampling for Style Preserving Face Pose Editing [53.14006941396712]
ジレンマを解くための新しい2段階のアプローチとして,顔のポーズ操作のタスクを顔に塗布する手法を提案する。
入力面から画素を選択的にサンプリングし、その相対位置をわずかに調整することにより、顔編集結果は、画像スタイルとともにアイデンティティ情報を忠実に保持する。
3D顔のランドマークをガイダンスとして、3自由度(ヨー、ピッチ、ロール)で顔のポーズを操作できるので、より柔軟な顔のポーズ編集が可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。