論文の概要: High Resolution Zero-Shot Domain Adaptation of Synthetically Rendered
Face Images
- arxiv url: http://arxiv.org/abs/2006.15031v1
- Date: Fri, 26 Jun 2020 15:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:58:54.864884
- Title: High Resolution Zero-Shot Domain Adaptation of Synthetically Rendered
Face Images
- Title(参考訳): 合成された顔画像の高分解能ゼロショット領域適応
- Authors: Stephan J. Garbin, Marek Kowalski, Matthew Johnson, and Jamie Shotton
- Abstract要約: 本稿では,非フォトリアリスティックな合成画像と事前学習したStyleGAN2モデルの潜在ベクトルとをマッチングするアルゴリズムを提案する。
これまでのほとんどの研究とは対照的に、私たちは合成トレーニングデータを必要としない。
このアルゴリズムは、1Kの解像度で作業する最初のアルゴリズムであり、視覚リアリズムにおける大きな飛躍を表している。
- 参考スコア(独自算出の注目度): 10.03187850132035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating photorealistic images of human faces at scale remains a
prohibitively difficult task using computer graphics approaches. This is
because these require the simulation of light to be photorealistic, which in
turn requires physically accurate modelling of geometry, materials, and light
sources, for both the head and the surrounding scene. Non-photorealistic
renders however are increasingly easy to produce. In contrast to computer
graphics approaches, generative models learned from more readily available 2D
image data have been shown to produce samples of human faces that are hard to
distinguish from real data. The process of learning usually corresponds to a
loss of control over the shape and appearance of the generated images. For
instance, even simple disentangling tasks such as modifying the hair
independently of the face, which is trivial to accomplish in a computer
graphics approach, remains an open research question. In this work, we propose
an algorithm that matches a non-photorealistic, synthetically generated image
to a latent vector of a pretrained StyleGAN2 model which, in turn, maps the
vector to a photorealistic image of a person of the same pose, expression,
hair, and lighting. In contrast to most previous work, we require no synthetic
training data. To the best of our knowledge, this is the first algorithm of its
kind to work at a resolution of 1K and represents a significant leap forward in
visual realism.
- Abstract(参考訳): 大規模に人間の顔の写実的画像を生成することは、コンピュータグラフィックスのアプローチによる極めて難しい作業である。
これは、光をフォトリアリスティックにシミュレーションする必要があるためであり、頭部と周囲のシーンの両方において、物理的に正確な幾何学、材料、光源のモデリングを必要とする。
しかし、非フォトリアリスティックなレンダリングは生産が容易である。
コンピュータグラフィックスのアプローチとは対照的に、より容易に利用可能な2次元画像データから得られた生成モデルは、実際のデータと区別が難しい人間の顔のサンプルを作成することが示されている。
学習の過程は、通常、生成された画像の形状や外観に対する制御の喪失に対応する。
例えば、顔から独立して髪を整えるといった単純なディスタング作業でさえ、コンピュータグラフィックスアプローチで達成するのは簡単なことですが、オープンリサーチの問題です。
本研究では,非フォトリアリスティックな合成生成画像と事前学習されたstylegan2モデルの潜在ベクトルとをマッチングするアルゴリズムを提案し,そのベクトルを同一ポーズ,表情,髪型,照明の人物のフォトリアリスティック画像にマッピングする。
これまでのほとんどの研究とは対照的に、合成トレーニングデータを必要としない。
私たちの知る限りでは、このアルゴリズムは1Kの解像度で作業する最初のアルゴリズムであり、視覚リアリズムの飛躍的な進歩を表している。
関連論文リスト
- Toward Human Understanding with Controllable Synthesis [3.6579002555961915]
頑健な3次元人間のポーズと形状推定を行うための訓練方法は、正確な基底真理を持つ多様な訓練画像を必要とする。
BEDLAMはそのようなデータを生成する従来の手続き型グラフィックスの可能性を示しているが、トレーニング画像は明らかに合成されている。
対照的に、生成的画像モデルは非常に現実的な画像を生成するが、真実は得られない。
論文 参考訳(メタデータ) (2024-11-13T14:54:47Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Photorealism in Driving Simulations: Blending Generative Adversarial
Image Synthesis with Rendering [0.0]
我々は、運転シミュレーションの視覚的忠実度を改善するために、ハイブリッドな生成型ニューラルネットワークパイプラインを導入する。
テクスチャのない単純なオブジェクトモデルからなる3次元シーンから2次元のセマンティック画像を生成する。
これらのセマンティックイメージは、現実の運転シーンで訓練された最先端のジェネレーティブ・アドリア・ネットワーク(GAN)を用いて、フォトリアリスティックなRGBイメージに変換される。
論文 参考訳(メタデータ) (2020-07-31T03:25:17Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Learning Neural Light Transport [28.9247002210861]
ニューラルネットワークを用いた静的・動的3次元シーンにおける光輸送の学習手法を提案する。
我々のモデルは静的および動的シーンのフォトリアリスティックなレンダリングを生成することができる。
論文 参考訳(メタデータ) (2020-06-05T13:26:05Z) - State of the Art on Neural Rendering [141.22760314536438]
我々は,古典的コンピュータグラフィックス技術と深層生成モデルを組み合わせることで,制御可能かつフォトリアリスティックな出力を得るアプローチに焦点をあてる。
本報告は,新しいビュー合成,セマンティック写真操作,顔と身体の再現,リライティング,自由視点ビデオ,バーチャルおよび拡張現実テレプレゼンスのためのフォトリアリスティックアバターの作成など,記述されたアルゴリズムの多くの重要なユースケースに焦点をあてる。
論文 参考訳(メタデータ) (2020-04-08T04:36:31Z) - Learning Inverse Rendering of Faces from Real-world Videos [52.313931830408386]
既存の方法は、顔画像を3つの構成要素(アルベド、ノーマル、照明)に分解する。
本稿では,アルベドと正常の整合性の仮定に基づいて,我々のモデルを実顔ビデオでトレーニングするための弱い教師付きトレーニング手法を提案する。
私たちのネットワークは、実データと合成データの両方で訓練されています。
論文 参考訳(メタデータ) (2020-03-26T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。