論文の概要: PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering
- arxiv url: http://arxiv.org/abs/2109.08379v1
- Date: Fri, 17 Sep 2021 07:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 21:43:14.764266
- Title: PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering
- Title(参考訳): PIRenderer: セマンティック・ニューラルレンダリングによる制御可能な画像生成
- Authors: Yurui Ren and Ge Li and Yuanqi Chen and Thomas H. Li and Shan Liu
- Abstract要約: ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
- 参考スコア(独自算出の注目度): 56.762094966235566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating portrait images by controlling the motions of existing faces is an
important task of great consequence to social media industries. For easy use
and intuitive control, semantically meaningful and fully disentangled
parameters should be used as modifications. However, many existing techniques
do not provide such fine-grained controls or use indirect editing methods i.e.
mimic motions of other individuals. In this paper, a Portrait Image Neural
Renderer (PIRenderer) is proposed to control the face motions with the
parameters of three-dimensional morphable face models (3DMMs). The proposed
model can generate photo-realistic portrait images with accurate movements
according to intuitive modifications. Experiments on both direct and indirect
editing tasks demonstrate the superiority of this model. Meanwhile, we further
extend this model to tackle the audio-driven facial reenactment task by
extracting sequential motions from audio inputs. We show that our model can
generate coherent videos with convincing movements from only a single reference
image and a driving audio stream. Our source code is available at
https://github.com/RenYurui/PIRender.
- Abstract(参考訳): 既存の顔の動きを制御してポートレート画像を生成することは、ソーシャルメディア産業にとって大きな成果をもたらす重要な課題である。
使いやすさと直感的な制御のためには、意味論的に意味があり、完全に不整合したパラメータを修正として使う必要がある。
しかし、既存の技術の多くは、そのような細かな制御や間接的な編集方法、すなわち他の個人の動きを模倣する手段を提供していない。
本稿では,3次元形態素顔モデル(3DMM)のパラメータを用いて顔の動きを制御するために,ポートレート画像ニューラルレンダ(PIRenderer)を提案する。
提案モデルでは,直観的な修正により正確な動きを持つフォトリアリスティックなポートレート画像を生成することができる。
直接的および間接的な編集タスクの実験は、このモデルの優位性を示している。
また,このモデルをさらに拡張し,音声入力から逐次動作を抽出することにより,音声駆動の表情再現タスクに取り組む。
本モデルは,単一の参照画像と駆動音声ストリームのみから,説得力のある動画を生成可能であることを示す。
ソースコードはhttps://github.com/RenYurui/PIRender.comで公開されています。
関連論文リスト
- G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Dynamic Neural Portraits [58.480811535222834]
フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。
本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。
実験の結果,提案手法は最近のNeRF法よりも270倍高速であることがわかった。
論文 参考訳(メタデータ) (2022-11-25T10:06:14Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera
Manifold [5.462226912969161]
現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。
当社のアプローチは,トレーニング済みのStyleGANを標準の3Dレンダリングパイプラインに統合する上で,どのような効果があるかを示す。
本手法は,インタラクティブなレートでリアルな顔の真の自由視点レンダリングを提案する。
論文 参考訳(メタデータ) (2021-09-20T08:59:21Z) - FLAME-in-NeRF : Neural control of Radiance Fields for Free View Face
Animation [37.39945646282971]
本稿では,映像合成のためのニューラルレンダリング手法を提案する。
3次元形態素顔モデル(3DMM)の表情空間を利用して表情の分布を表現した。
本稿では,写真表現制御によるポートレートビデオのフリービュー合成における提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-08-10T20:41:15Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。