論文の概要: A Compact and Semantic Latent Space for Disentangled and Controllable
Image Editing
- arxiv url: http://arxiv.org/abs/2312.08256v1
- Date: Wed, 13 Dec 2023 16:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:48:38.960525
- Title: A Compact and Semantic Latent Space for Disentangled and Controllable
Image Editing
- Title(参考訳): 縮小・制御可能な画像編集のためのコンパクトでセマンティックな潜在空間
- Authors: Gwilherm Lesn\'e, Yann Gousseau, Sa\"id Ladjal, Alasdair Newson
- Abstract要約: 本稿では,StyleGANの潜在空間を再編成するオートエンコーダを提案する。
提案手法は,同一性に関して元の画像に対する忠実さを維持しつつ,競合する手法よりも不整合性が高いことを示す。
- 参考スコア(独自算出の注目度): 4.8201607588546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in the field of generative models and in particular
generative adversarial networks (GANs) have lead to substantial progress for
controlled image editing, especially compared with the pre-deep learning era.
Despite their powerful ability to apply realistic modifications to an image,
these methods often lack properties like disentanglement (the capacity to edit
attributes independently). In this paper, we propose an auto-encoder which
re-organizes the latent space of StyleGAN, so that each attribute which we wish
to edit corresponds to an axis of the new latent space, and furthermore that
the latent axes are decorrelated, encouraging disentanglement. We work in a
compressed version of the latent space, using Principal Component Analysis,
meaning that the parameter complexity of our autoencoder is reduced, leading to
short training times ($\sim$ 45 mins). Qualitative and quantitative results
demonstrate the editing capabilities of our approach, with greater
disentanglement than competing methods, while maintaining fidelity to the
original image with respect to identity. Our autoencoder architecture simple
and straightforward, facilitating implementation.
- Abstract(参考訳): 生成モデルと特にgans(generative adversarial network)の分野における最近の進歩は、特に深層学習以前の時代と比較して、画像編集の制御が大幅に進歩している。
画像に現実的な修正を施す能力は強かったが、これらの方法にはしばしば絡み合い(属性を個別に編集する能力)のような特性が欠けている。
本稿では,スタイルガンの潜在空間を再編成する自動エンコーダを提案し,我々が編集したい各属性が新たな潜在空間の軸に対応し,さらに潜在軸が非相関であり,絡み合いを助長する。
我々は、主成分分析を用いて、潜在空間の圧縮バージョンで作業し、オートエンコーダのパラメータの複雑さを減らし、短いトレーニング時間(45分)に繋がる。
定性的かつ定量的な結果は,同一性に関して元の画像への忠実さを維持しつつ,競合する手法よりも大きな歪みを伴って,我々のアプローチの編集能力を示すものである。
私たちのautoencoderアーキテクチャはシンプルで簡単な実装です。
関連論文リスト
- LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - High-fidelity GAN Inversion with Padding Space [38.9258619444968]
GAN(Generative Adversarial Network)の反転は、事前訓練されたジェネレータを用いた幅広い画像編集作業を容易にする。
既存の手法では、通常、反転空間としてGANの潜伏空間を用いるが、空間詳細の回復は不十分である。
本稿では, 潜伏空間を空間情報で補うため, ジェネレータのパディング空間を包含することを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:32:12Z) - Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing,
using Few Synthetic Samples [2.348633570886661]
本稿では,事前学習したGANの潜伏空間において,任意の属性を制御できる新しい手法を提案する。
我々は最小限のサンプルを頼りにSim2Real学習を行い、連続的な正確な編集を無制限に行う。
論文 参考訳(メタデータ) (2021-11-16T12:42:04Z) - Designing an Encoder for StyleGAN Image Manipulation [38.909059126878354]
最先端の無条件発電機であるStyleGANの潜伏空間について検討する。
そこで我々は,StyleGAN潜在空間における歪み依存性トレードオフと歪み知覚トレードオフの存在を同定し,解析する。
本稿では,実画像の編集を容易にするための2つの原理に基づくエンコーダを提案する。
論文 参考訳(メタデータ) (2021-02-04T17:52:38Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z) - Toward a Controllable Disentanglement Network [22.968760397814993]
本稿では, 画像編集における歪みの程度を制御し, 歪み強度と復元品質のバランスをとることにより, 歪み画像表現を学習する2つの重要な問題に対処する。
ソフトターゲット表現の実際の値空間を探索することにより、指定された特性を持つ新規な画像を合成することができる。
論文 参考訳(メタデータ) (2020-01-22T16:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。