論文の概要: Expanding the Latent Space of StyleGAN for Real Face Editing
- arxiv url: http://arxiv.org/abs/2204.12530v1
- Date: Tue, 26 Apr 2022 18:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 02:53:18.863503
- Title: Expanding the Latent Space of StyleGAN for Real Face Editing
- Title(参考訳): リアル顔編集のためのスタイルGANの潜在空間の拡大
- Authors: Yin Yu, Ghasedi Kamran, Wu HsiangTao, Yang Jiaolong, Tong Xi, Fu Yun
- Abstract要約: セマンティックな操作に事前訓練されたStyleGANを使用するために、顔編集技術の急増が提案されている。
実際の画像を編集するには、最初に入力された画像をStyleGANの潜伏変数に変換する必要がある。
本稿では,低歪みと高編集性の間のトレードオフを断ち切るために,コンテンツ機能の追加により,StyleGANの潜伏空間を拡張する手法を提案する。
- 参考スコア(独自算出の注目度): 4.1715767752637145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a surge of face editing techniques have been proposed to employ the
pretrained StyleGAN for semantic manipulation. To successfully edit a real
image, one must first convert the input image into StyleGAN's latent variables.
However, it is still challenging to find latent variables, which have the
capacity for preserving the appearance of the input subject (e.g., identity,
lighting, hairstyles) as well as enabling meaningful manipulations. In this
paper, we present a method to expand the latent space of StyleGAN with
additional content features to break down the trade-off between low-distortion
and high-editability. Specifically, we proposed a two-branch model, where the
style branch first tackles the entanglement issue by the sparse manipulation of
latent codes, and the content branch then mitigates the distortion issue by
leveraging the content and appearance details from the input image. We confirm
the effectiveness of our method using extensive qualitative and quantitative
experiments on real face editing and reconstruction tasks.
- Abstract(参考訳): 近年,セマンティック操作に事前訓練されたStyleGANを利用するために顔編集技術が急増している。
実画像の編集を成功させるためには、まず入力画像をstyleganの潜在変数に変換する必要がある。
しかし、入力対象(アイデンティティ、照明、髪型など)の外観を保存する能力を持ち、意味のある操作を可能にする潜伏変数を見つけることは依然として困難である。
本稿では,スタイルガンの潜在空間を新たなコンテンツ機能で拡張し,低歪みと高編集性のトレードオフを解消する手法を提案する。
具体的には,遅延符号のスパース操作によってスタイル分岐が絡み合う問題に最初に取り組み,コンテンツ分岐は入力画像からのコンテンツや外観の詳細を利用して歪み問題を緩和する2分岐モデルを提案する。
実顔編集および再構成作業における定性的,定量的な実験により,本手法の有効性を確認した。
関連論文リスト
- Warping the Residuals for Image Editing with StyleGAN [5.733811543584874]
StyleGANモデルは、意味論的に解釈可能な潜在組織を通して編集機能を示す。
StyleGANの潜伏空間に画像を反転させる多くの研究が提案されている。
本稿では,高速遅延特徴を抽出し,フロー推定モジュールを含む新しい画像インバージョンアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:24:18Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces [103.54337984566877]
拡張畳み込みを用いて、モデルパラメータを変更することなく、StyleGANの浅い層の受容場を再スケールする。
これにより、浅い層における固定サイズの小さなフィーチャを、可変解像度に対応できるより大きなものへと拡張することができる。
本手法は,多様な顔操作タスクにおいて,様々な解像度の顔入力を用いて検証する。
論文 参考訳(メタデータ) (2023-03-10T18:59:33Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - Pivotal Tuning for Latent-based Editing of Real Images [40.22151052441958]
事前訓練されたStyleGANの生成力を利用する高度な顔編集技術が提案されている。
このような方法で画像の編集を成功させるためには、最初に訓練済みのジェネレータのドメインに画像を投影(あるいは反転)する必要がある。
これは、ジェネレータの領域外にある顔に対して、ID保存の顔潜時空間編集を適用することは依然として困難であることを意味する。
論文 参考訳(メタデータ) (2021-06-10T13:47:59Z) - Designing an Encoder for StyleGAN Image Manipulation [38.909059126878354]
最先端の無条件発電機であるStyleGANの潜伏空間について検討する。
そこで我々は,StyleGAN潜在空間における歪み依存性トレードオフと歪み知覚トレードオフの存在を同定し,解析する。
本稿では,実画像の編集を容易にするための2つの原理に基づくエンコーダを提案する。
論文 参考訳(メタデータ) (2021-02-04T17:52:38Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。