論文の概要: StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single
Video
- arxiv url: http://arxiv.org/abs/2305.00942v1
- Date: Mon, 1 May 2023 16:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:46:40.748779
- Title: StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single
Video
- Title(参考訳): styleavatar:1つのビデオからリアルタイムフォトリアリスティックなポートレートアバター
- Authors: Lizhen Wang, Xiaochen Zhao, Jingxiang Sun, Yuxiang Zhang, Hongwen
Zhang, Tao Yu, Yebin Liu
- Abstract要約: StyleAvatar(スタイルアバター)は、StyleGANベースのネットワークを用いたリアルタイムな写真リアルなポートレートアバター再構築手法である。
結果と実験により,画像品質,フルポートレート映像生成,リアルタイム再アニメーションの観点から,本手法の優位性を実証した。
- 参考スコア(独自算出の注目度): 39.176852832054045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face reenactment methods attempt to restore and re-animate portrait videos as
realistically as possible. Existing methods face a dilemma in quality versus
controllability: 2D GAN-based methods achieve higher image quality but suffer
in fine-grained control of facial attributes compared with 3D counterparts. In
this work, we propose StyleAvatar, a real-time photo-realistic portrait avatar
reconstruction method using StyleGAN-based networks, which can generate
high-fidelity portrait avatars with faithful expression control. We expand the
capabilities of StyleGAN by introducing a compositional representation and a
sliding window augmentation method, which enable faster convergence and improve
translation generalization. Specifically, we divide the portrait scenes into
three parts for adaptive adjustments: facial region, non-facial foreground
region, and the background. Besides, our network leverages the best of UNet,
StyleGAN and time coding for video learning, which enables high-quality video
generation. Furthermore, a sliding window augmentation method together with a
pre-training strategy are proposed to improve translation generalization and
training performance, respectively. The proposed network can converge within
two hours while ensuring high image quality and a forward rendering time of
only 20 milliseconds. Furthermore, we propose a real-time live system, which
further pushes research into applications. Results and experiments demonstrate
the superiority of our method in terms of image quality, full portrait video
generation, and real-time re-animation compared to existing facial reenactment
methods. Training and inference code for this paper are at
https://github.com/LizhenWangT/StyleAvatar.
- Abstract(参考訳): face reenactment methodは、ポートレートビデオを可能な限りリアルに復元し、アニメーション化しようとする。
既存の手法は品質と制御性のジレンマに直面している: 2d ganベースの手法は高い画質を達成するが、顔の属性を3dのものと比較してきめ細かい制御に苦しむ。
本稿では,高忠実度ポートレートアバターを忠実な表現制御で生成できる,StyleGANベースのネットワークを用いたリアルタイム写真リアリスティックポートレートアバター再構成手法であるStyleAvatarを提案する。
コンポジション表現とスライディングウィンドウ拡張手法を導入し,より高速な収束を実現し,翻訳の一般化を向上することで,StyleGANの能力を拡大する。
具体的には、顔領域、非顔面前景領域、背景の順応のために、肖像画シーンを3つの部分に分割する。
さらに当社のネットワークでは,高品質なビデオ生成を可能にするビデオ学習に,unet,stylegan,time codingを最大限活用しています。
さらに, 翻訳一般化と訓練性能を向上させるために, 事前学習戦略と併用したスライディングウィンドウ拡張法を提案する。
提案されたネットワークは2時間以内に収束し、高い画質と転送時間はわずか20ミリ秒である。
さらに,リアルタイムのライブシステムを提案し,アプリケーションの研究をさらに進める。
その結果,既存の顔再現法と比較して画像品質,フルポートレート映像生成,リアルタイム再アニメーションの面で,本手法の優位性を実証した。
この論文のトレーニングと推論コードはhttps://github.com/LizhenWangT/StyleAvatar.comにある。
関連論文リスト
- TextToon: Real-Time Text Toonify Head Avatar from Single Video [34.07760625281835]
乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令が与えられた場合,本モデルは高忠実度トーン化アバターを生成することができる。
論文 参考訳(メタデータ) (2024-09-23T15:04:45Z) - G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - Dynamic Neural Portraits [58.480811535222834]
フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。
本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。
実験の結果,提案手法は最近のNeRF法よりも270倍高速であることがわかった。
論文 参考訳(メタデータ) (2022-11-25T10:06:14Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - StyleFaceV: Face Video Generation via Decomposing and Recomposing
Pretrained StyleGAN3 [43.43545400625567]
そこで我々は,鮮明な動きを持つ高忠実度ID保存顔ビデオを生成するStyleFaceVというフレームワークを提案する。
我々の中核となる洞察は、外観を分解し、情報を合成し、それらをStyleGAN3の潜在空間に再分解することで、安定的でダイナミックな結果を生み出すことである。
論文 参考訳(メタデータ) (2022-08-16T17:47:03Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。