論文の概要: StyleGAN knows Normal, Depth, Albedo, and More
- arxiv url: http://arxiv.org/abs/2306.00987v1
- Date: Thu, 1 Jun 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:39:37.977831
- Title: StyleGAN knows Normal, Depth, Albedo, and More
- Title(参考訳): StyleGANは正規、深さ、アルベドなどを知っている
- Authors: Anand Bhattad, Daniel McKee, Derek Hoiem, D.A. Forsyth
- Abstract要約: 固有の画像は、深度、正常、アルベド、シェーディングといったシーン特性のイメージライクなマップである。
本稿では,StyleGANが固有画像を生成するために容易に誘導できることを実証する。
- 参考スコア(独自算出の注目度): 16.077529619880014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic images, in the original sense, are image-like maps of scene
properties like depth, normal, albedo or shading. This paper demonstrates that
StyleGAN can easily be induced to produce intrinsic images. The procedure is
straightforward. We show that, if StyleGAN produces $G({w})$ from latents
${w}$, then for each type of intrinsic image, there is a fixed offset ${d}_c$
so that $G({w}+{d}_c)$ is that type of intrinsic image for $G({w})$. Here
${d}_c$ is {\em independent of ${w}$}. The StyleGAN we used was pretrained by
others, so this property is not some accident of our training regime. We show
that there are image transformations StyleGAN will {\em not} produce in this
fashion, so StyleGAN is not a generic image regression engine.
It is conceptually exciting that an image generator should ``know'' and
represent intrinsic images. There may also be practical advantages to using a
generative model to produce intrinsic images. The intrinsic images obtained
from StyleGAN compare well both qualitatively and quantitatively with those
obtained by using SOTA image regression techniques; but StyleGAN's intrinsic
images are robust to relighting effects, unlike SOTA methods.
- Abstract(参考訳): 本来のイメージは、深度、正常、アルベド、シェーディングといったシーン特性のイメージライクなマップである。
本稿では,StyleGANが固有画像を生成するために容易に誘導できることを実証する。
手順は単純です。
もしStyleGANがラテント${w}$から$G({w})$を生成するなら、各種類の内在画像に対して、固定オフセット${d}_c$が存在するので、$G({w}+{d}_c)$は$G({w})$に対する内在画像の型である。
ここで ${d}_c$ は ${w}$} とは独立である。
私たちが使用したStyleGANは、他の人によって事前訓練されていたため、このプロパティはトレーニング体制の偶然ではありません。
このような方法でStyleGANが生成する画像変換があることが示されるので、StyleGANは汎用的な画像回帰エンジンではない。
イメージジェネレータが ``know'' で固有のイメージを表現することは概念的にエキサイティングです。
また、生成モデルを用いて本質的な画像を生成するという実用的な利点もある。
StyleGANから得られた固有画像は、SOTA画像回帰法を用いて得られたものと、定性的かつ定量的に比較できるが、StyleGANの固有画像はSOTA法とは異なり、リライト効果に頑健である。
関連論文リスト
- DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Near Perfect GAN Inversion [17.745342857726925]
写真のほぼ完全な再構築を実現するアルゴリズムを導出する。
このアプローチは、複製したい実画像と区別できない合成画像を生成するだけでなく、これらの画像は容易に編集可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T23:58:13Z) - JoJoGAN: One Shot Face Stylization [6.019182604573027]
本研究は,細部を正確に把握したワンショット画像スタイリングを実現することを目的としている。
GANインバージョンと事前学習したStyleGANのファインチューンを用いて,参照スタイルの画像から実データを近似した。
次に、StyleGANを一般化して、学習したスタイルを他のすべての画像に適用できるように促します。
論文 参考訳(メタデータ) (2021-12-22T03:13:16Z) - ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation [55.47515538020578]
本研究は,マルチモーダル画像とマルチドメイン画像の直接変換を実現する暗黙的スタイル関数 (ISF) を提案する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
論文 参考訳(メタデータ) (2021-09-26T04:51:39Z) - Analogical Image Translation for Fog Generation [114.39308837759329]
AITは、合成クリアウェザー画像、合成霧画像、および真のクリアウェザー画像を用いて学習し、トレーニング中に本物の霧画像を見ることなく、本物のクリアウェザー画像に霧効果を加える。
AITは、合成ドメインにおける教師付きトレーニングスキームと、実ドメインにおけるサイクル整合戦略と、2つのドメイン間の対角的トレーニングスキームと、新しいネットワーク設計とを結合して、このゼロショット画像翻訳能力を実現する。
論文 参考訳(メタデータ) (2020-06-28T14:33:31Z) - Towards Photo-Realistic Virtual Try-On by Adaptively
Generating$\leftrightarrow$Preserving Image Content [85.24260811659094]
本稿では,適応コンテンツ生成・保存ネットワーク(ACGPN)という新しいビジュアル・トライオン・ネットワークを提案する。
ACGPNはまず、試行錯誤後に変更される参照画像のセマンティックレイアウトを予測する。
第二に、服のワープモジュールは、生成されたセマンティックレイアウトに従って衣服の画像をワープする。
第3に、コンテンツ融合のための塗装モジュールは、すべての情報(例えば、参照画像、セマンティックレイアウト、歪んだ衣服)を統合して、人間の身体の各意味部分を適応的に生成する。
論文 参考訳(メタデータ) (2020-03-12T15:55:39Z) - StyleGAN2 Distillation for Feed-forward Image Manipulation [5.5080625617632]
StyleGAN2は、現実的な画像を生成する最先端のネットワークである。
本稿では,StyleGAN2の特定の画像操作を,ペア方式で訓練した画像間ネットワークに蒸留する方法を提案する。
論文 参考訳(メタデータ) (2020-03-07T14:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。