論文の概要: Implicit Identity Representation Conditioned Memory Compensation Network
for Talking Head video Generation
- arxiv url: http://arxiv.org/abs/2307.09906v3
- Date: Fri, 18 Aug 2023 07:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 19:25:12.128733
- Title: Implicit Identity Representation Conditioned Memory Compensation Network
for Talking Head video Generation
- Title(参考訳): 音声ヘッドビデオ生成のための暗黙のアイデンティティ表現条件付きメモリ補償ネットワーク
- Authors: Fa-Ting Hong and Dan Xu
- Abstract要約: 対話型ヘッドビデオ生成は静止画像中の人間の顔を動的ポーズと動き情報を用いた表情でアニメーションすることを目的としている。
それでもソース画像は、隠された領域や微妙な表現のバリエーションに対して十分な外観情報を提供できない。
MCNetと呼ばれる暗黙的同一性表現条件付きメモリ補償ネットワークを,高忠実度音声ヘッド生成のために提案する。
- 参考スコア(独自算出の注目度): 16.66038865012963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head video generation aims to animate a human face in a still image
with dynamic poses and expressions using motion information derived from a
target-driving video, while maintaining the person's identity in the source
image. However, dramatic and complex motions in the driving video cause
ambiguous generation, because the still source image cannot provide sufficient
appearance information for occluded regions or delicate expression variations,
which produces severe artifacts and significantly degrades the generation
quality. To tackle this problem, we propose to learn a global facial
representation space, and design a novel implicit identity representation
conditioned memory compensation network, coined as MCNet, for high-fidelity
talking head generation.~Specifically, we devise a network module to learn a
unified spatial facial meta-memory bank from all training samples, which can
provide rich facial structure and appearance priors to compensate warped source
facial features for the generation. Furthermore, we propose an effective query
mechanism based on implicit identity representations learned from the discrete
keypoints of the source image. It can greatly facilitate the retrieval of more
correlated information from the memory bank for the compensation. Extensive
experiments demonstrate that MCNet can learn representative and complementary
facial memory, and can clearly outperform previous state-of-the-art talking
head generation methods on VoxCeleb1 and CelebV datasets. Please check our
\href{https://github.com/harlanhong/ICCV2023-MCNET}{Project}.
- Abstract(参考訳): トーキングヘッドビデオ生成は、人物の身元を画像内に保持しつつ、ターゲット駆動ビデオから派生した動き情報を用いて、静止画像中の人間の顔に動的ポーズと表情をアニメーションすることを目的としている。
しかし、運転映像における劇的かつ複雑な動きは、隠蔽された領域や微妙な表現のバリエーションに対して十分な外観情報を提供できないため、不明瞭な生成を引き起こす。
この問題に対処するために,我々はグローバルな顔表現空間を学習し,MCNetと呼ばれる新しい暗黙のアイデンティティ表現条件付きメモリ補償ネットワークを設計することを提案する。
具体的には、ネットワークモジュールを考案し、すべてのトレーニングサンプルから、統一的な空間的顔メタメモリバンクを学習し、より豊かな顔構造と外観を前もって提供し、その生成のための歪んだ顔特徴を補うことができる。
さらに,ソース画像の離散的キーポイントから学習した暗黙的アイデンティティ表現に基づく効果的なクエリ機構を提案する。
これにより、メモリバンクからより相関性の高い情報を検索し、補償を行うことができる。
大規模な実験により、MCNetは代表的および補完的な顔記憶を学習でき、VoxCeleb1およびCelebVデータセットにおける従来の最先端の音声ヘッド生成方法よりも明らかに優れていることが示された。
https://github.com/harlanhong/iccv2023-mcnet}{project} を参照。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models [33.39336530229545]
顔再現とは、ポーズと表情を、参照(運転)ビデオから静的な顔(ソース)画像に転送する過程を指す。
この領域における以前の研究は、顔を生成するために制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。
本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T07:08:48Z) - FaceChain: A Playground for Human-centric Artificial Intelligence
Generated Content [36.48960592782015]
FaceChainは、パーソナライズされたポートレート生成フレームワークで、一連のカスタマイズされた画像生成モデルと、顔に関連する知覚理解モデルの豊富なセットを組み合わせる。
我々は、複数のSOTAフェイスモデルを生成手順に注入し、従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。
FaceChainをベースとして、仮想トライオンや2Dトーキングヘッドなど、その価値をよりよく示すための、より広いグラウンドを構築するためのいくつかのアプリケーションも開発しています。
論文 参考訳(メタデータ) (2023-08-28T02:20:44Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。