論文の概要: HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
- arxiv url: http://arxiv.org/abs/2111.15666v1
- Date: Tue, 30 Nov 2021 18:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:59:44.539631
- Title: HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
- Title(参考訳): HyperStyle: リアルタイムイメージ編集のためのHyperNetworksを使用したStyleGANインバージョン
- Authors: Yuval Alaluf, Omer Tov, Ron Mokady, Rinon Gal, Amit H. Bermano
- Abstract要約: HyperStyleは、StyleGANの重みを変調して、潜在空間の編集可能な領域で所定の画像を忠実に表現することを学ぶ。
HyperStyleは、エンコーダのほぼリアルタイム推論機能を備えた最適化手法に匹敵する再構成を行う。
- 参考スコア(独自算出の注目度): 2.362412515574206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inversion of real images into StyleGAN's latent space is a well-studied
problem. Nevertheless, applying existing approaches to real-world scenarios
remains an open challenge, due to an inherent trade-off between reconstruction
and editability: latent space regions which can accurately represent real
images typically suffer from degraded semantic control. Recent work proposes to
mitigate this trade-off by fine-tuning the generator to add the target image to
well-behaved, editable regions of the latent space. While promising, this
fine-tuning scheme is impractical for prevalent use as it requires a lengthy
training phase for each new image. In this work, we introduce this approach
into the realm of encoder-based inversion. We propose HyperStyle, a
hypernetwork that learns to modulate StyleGAN's weights to faithfully express a
given image in editable regions of the latent space. A naive modulation
approach would require training a hypernetwork with over three billion
parameters. Through careful network design, we reduce this to be in line with
existing encoders. HyperStyle yields reconstructions comparable to those of
optimization techniques with the near real-time inference capabilities of
encoders. Lastly, we demonstrate HyperStyle's effectiveness on several
applications beyond the inversion task, including the editing of out-of-domain
images which were never seen during training.
- Abstract(参考訳): StyleGANの潜在空間への実画像の反転は、よく研究されている問題である。
それでも、現実世界のシナリオに既存のアプローチを適用することは、レコンストラクションと編集可能性との間に固有のトレードオフがあるため、まだ未解決の課題である。
最近の研究は、ジェネレータを微調整してターゲットイメージを潜在空間の良好な編集可能な領域に追加することで、このトレードオフを軽減することを提案している。
有望ではあるが、この微調整方式は、新しい画像ごとに長い訓練フェーズを必要とするため、広く使われるには実用的ではない。
本稿では,この手法をエンコーダベースの反転の領域に導入する。
本稿では,階層空間の編集可能な領域で与えられた画像を忠実に表現するために,スタイルGANの重みを変調するハイパーネットワークであるHyperStyleを提案する。
単純な変調アプローチでは、30億以上のパラメータでハイパーネットワークをトレーニングする必要がある。
注意深いネットワーク設計により、既存のエンコーダに適合するように削減する。
HyperStyleは、エンコーダのほぼリアルタイム推論機能を備えた最適化手法に匹敵する再構成を行う。
最後に、トレーニング中に見ることのないドメイン外イメージの編集など、反転タスク以外のいくつかのアプリケーションでhyperstyleの有効性を実証する。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - HyperPose: Camera Pose Localization using Attention Hypernetworks [6.700873164609009]
カメラポーズのローカライゼーションにおけるアテンション・ハイパーネットの利用を提案する。
提案手法は,現代データセットの最先端手法と比較して,優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-05T08:45:50Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - Designing an Encoder for StyleGAN Image Manipulation [38.909059126878354]
最先端の無条件発電機であるStyleGANの潜伏空間について検討する。
そこで我々は,StyleGAN潜在空間における歪み依存性トレードオフと歪み知覚トレードオフの存在を同定し,解析する。
本稿では,実画像の編集を容易にするための2つの原理に基づくエンコーダを提案する。
論文 参考訳(メタデータ) (2021-02-04T17:52:38Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。