論文の概要: Pivotal Tuning for Latent-based Editing of Real Images
- arxiv url: http://arxiv.org/abs/2106.05744v1
- Date: Thu, 10 Jun 2021 13:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 11:05:41.869887
- Title: Pivotal Tuning for Latent-based Editing of Real Images
- Title(参考訳): リアルタイム画像編集のためのPivotal Tuning
- Authors: Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or
- Abstract要約: 事前訓練されたStyleGANの生成力を利用する高度な顔編集技術が提案されている。
このような方法で画像の編集を成功させるためには、最初に訓練済みのジェネレータのドメインに画像を投影(あるいは反転)する必要がある。
これは、ジェネレータの領域外にある顔に対して、ID保存の顔潜時空間編集を適用することは依然として困難であることを意味する。
- 参考スコア(独自算出の注目度): 40.22151052441958
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, a surge of advanced facial editing techniques have been proposed
that leverage the generative power of a pre-trained StyleGAN. To successfully
edit an image this way, one must first project (or invert) the image into the
pre-trained generator's domain. As it turns out, however, StyleGAN's latent
space induces an inherent tradeoff between distortion and editability, i.e.
between maintaining the original appearance and convincingly altering some of
its attributes. Practically, this means it is still challenging to apply
ID-preserving facial latent-space editing to faces which are out of the
generator's domain. In this paper, we present an approach to bridge this gap.
Our technique slightly alters the generator, so that an out-of-domain image is
faithfully mapped into an in-domain latent code. The key idea is pivotal tuning
- a brief training process that preserves the editing quality of an in-domain
latent region, while changing its portrayed identity and appearance. In Pivotal
Tuning Inversion (PTI), an initial inverted latent code serves as a pivot,
around which the generator is fined-tuned. At the same time, a regularization
term keeps nearby identities intact, to locally contain the effect. This
surgical training process ends up altering appearance features that represent
mostly identity, without affecting editing capabilities. We validate our
technique through inversion and editing metrics, and show preferable scores to
state-of-the-art methods. We further qualitatively demonstrate our technique by
applying advanced edits (such as pose, age, or expression) to numerous images
of well-known and recognizable identities. Finally, we demonstrate resilience
to harder cases, including heavy make-up, elaborate hairstyles and/or headwear,
which otherwise could not have been successfully inverted and edited by
state-of-the-art methods.
- Abstract(参考訳): 近年,事前学習したStyleGANの生成能力を活用した高度な顔編集技術が提案されている。
このようにして画像を編集するには、事前に訓練されたジェネレータのドメインに最初に画像を投影(あるいは反転)する必要がある。
しかし、スタイルガンの潜在空間は、歪曲と編集性の間に固有のトレードオフを生じさせる。
元の外観を保ち 属性のいくつかを 確実に変更することです
実際には、ジェネレータの領域外にある顔に対して、ID保存の顔潜在空間編集を適用することは依然として困難である。
本稿では,このギャップを橋渡しする手法を提案する。
我々の技術はジェネレータを少し変更し、ドメイン外の画像を忠実にドメイン内の潜在コードにマッピングする。
重要なアイデアはpivotal tuning – ドメイン内の潜在領域の編集品質を保ちながら、その表現されたアイデンティティと外観を変更する、簡単なトレーニングプロセスだ。
Pivotal Tuning Inversion (PTI)では、初期反転潜時コードはピボットとして機能し、その周りでジェネレータを微調整する。
同時に、正規化用語は、その効果を局所的に含むために、近隣のアイデンティティをそのまま保持する。
この手術訓練プロセスは、編集能力に影響を与えることなく、ほとんど同一性を表す外観の特徴を変えることになる。
測定値の反転と編集を行い,最先端の手法に好適なスコアを示す。
さらに,高度な編集(ポーズ,年齢,表情など)を,知名度や認識可能な多数の画像に適用することにより,この手法を定性的に実証する。
最後に, ヘビーメイクアップ, 精巧なヘアスタイル, ヘッドウェアなど, 難易度の高い症例に対するレジリエンスを実証した。
関連論文リスト
- HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in
Image Editing via Hypernetworks [5.9189325968909365]
本稿では,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。
CLIPのクロスモーダルな画像テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、真の属性編集とクロスドメインスタイルの転送を同時に実現できる。
論文 参考訳(メタデータ) (2023-12-21T02:39:53Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Semantic Unfolding of StyleGAN Latent Space [0.7646713951724012]
GAN(Generative Adversarial Network)は、入力された実画像に対応する潜伏符号を反転操作することによって、画像編集において驚くほど効率的であることが証明されている。
この編集性は、潜在空間の非絡み合いの性質から生じる。
本稿では, 顔属性のアンタングル化が最適ではないことを確認し, 線形属性分離に依存する顔の編集に欠陥があることを示す。
論文 参考訳(メタデータ) (2022-06-29T20:22:10Z) - Expanding the Latent Space of StyleGAN for Real Face Editing [4.1715767752637145]
セマンティックな操作に事前訓練されたStyleGANを使用するために、顔編集技術の急増が提案されている。
実際の画像を編集するには、最初に入力された画像をStyleGANの潜伏変数に変換する必要がある。
本稿では,低歪みと高編集性の間のトレードオフを断ち切るために,コンテンツ機能の追加により,StyleGANの潜伏空間を拡張する手法を提案する。
論文 参考訳(メタデータ) (2022-04-26T18:27:53Z) - FEAT: Face Editing with Attention [70.89233432407305]
StyleGAN ジェネレータ上に構築し,顔の操作を意図した領域に集中させる手法を提案する。
編集された画像の生成中、アテンションマップは、元の特徴と修正された特徴とのブレンドをガイドするマスクとして機能する。
論文 参考訳(メタデータ) (2022-02-06T06:07:34Z) - Pixel Sampling for Style Preserving Face Pose Editing [53.14006941396712]
ジレンマを解くための新しい2段階のアプローチとして,顔のポーズ操作のタスクを顔に塗布する手法を提案する。
入力面から画素を選択的にサンプリングし、その相対位置をわずかに調整することにより、顔編集結果は、画像スタイルとともにアイデンティティ情報を忠実に保持する。
3D顔のランドマークをガイダンスとして、3自由度(ヨー、ピッチ、ロール)で顔のポーズを操作できるので、より柔軟な顔のポーズ編集が可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:29:29Z) - Designing an Encoder for StyleGAN Image Manipulation [38.909059126878354]
最先端の無条件発電機であるStyleGANの潜伏空間について検討する。
そこで我々は,StyleGAN潜在空間における歪み依存性トレードオフと歪み知覚トレードオフの存在を同定し,解析する。
本稿では,実画像の編集を容易にするための2つの原理に基づくエンコーダを提案する。
論文 参考訳(メタデータ) (2021-02-04T17:52:38Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。