論文の概要: VecGAN: Image-to-Image Translation with Interpretable Latent Directions
- arxiv url: http://arxiv.org/abs/2207.03411v1
- Date: Thu, 7 Jul 2022 16:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 16:46:02.574971
- Title: VecGAN: Image-to-Image Translation with Interpretable Latent Directions
- Title(参考訳): VecGAN: 解釈可能な潜在方向による画像間変換
- Authors: Yusuf Dalva, Said Fahri Altindis, Aysegul Dundar
- Abstract要約: VecGANは、画像から画像への変換フレームワークで、顔属性を解釈可能な潜在方向で編集する。
VecGANは、ローカルとグローバルの両方の編集の最先端よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 4.7590051176368915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose VecGAN, an image-to-image translation framework for facial
attribute editing with interpretable latent directions. Facial attribute
editing task faces the challenges of precise attribute editing with
controllable strength and preservation of the other attributes of an image. For
this goal, we design the attribute editing by latent space factorization and
for each attribute, we learn a linear direction that is orthogonal to the
others. The other component is the controllable strength of the change, a
scalar value. In our framework, this scalar can be either sampled or encoded
from a reference image by projection. Our work is inspired by the latent space
factorization works of fixed pretrained GANs. However, while those models
cannot be trained end-to-end and struggle to edit encoded images precisely,
VecGAN is end-to-end trained for image translation task and successful at
editing an attribute while preserving the others. Our extensive experiments
show that VecGAN achieves significant improvements over state-of-the-arts for
both local and global edits.
- Abstract(参考訳): 本稿では,表情属性編集のための画像から画像への翻訳フレームワークvecganを提案する。
顔属性編集タスクは、制御可能な強度と画像の他の属性の保存による正確な属性編集の課題に直面している。
この目的のために,潜在空間分解による属性編集をデザインし,各属性に対して他の属性と直交する線形方向を学習する。
もう1つのコンポーネントは、変更の制御可能な強度、スカラー値である。
我々のフレームワークでは、このスカラーは投影により参照画像からサンプリングまたはエンコードすることができる。
我々の研究は、固定事前訓練されたGANの潜在空間分解の研究にインスパイアされている。
しかし、これらのモデルはエンドツーエンドでは訓練できず、エンコードされた画像の正確な編集に苦労するが、vecganは画像翻訳タスクのためにエンドツーエンドで訓練され、他のモデルを保存しながら属性の編集に成功する。
広範な実験の結果,vecganは,ローカル編集とグローバル編集の両方において,最先端よりも大幅に改善されていることがわかった。
関連論文リスト
- A Compact and Semantic Latent Space for Disentangled and Controllable
Image Editing [4.8201607588546]
本稿では,StyleGANの潜在空間を再編成するオートエンコーダを提案する。
提案手法は,同一性に関して元の画像に対する忠実さを維持しつつ,競合する手法よりも不整合性が高いことを示す。
論文 参考訳(メタデータ) (2023-12-13T16:18:45Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Face Attribute Editing with Disentangled Latent Vectors [0.0]
顔属性編集のための画像から画像への変換フレームワークを提案する。
固定事前学習されたGANの潜在空間因子化作業にインスパイアされ、潜在空間因子化による属性編集を設計する。
意味的に整理された潜在空間に画像を投影するために,注意に基づくスキップ接続を備えたエンコーダデコーダアーキテクチャを構築した。
論文 参考訳(メタデータ) (2023-01-11T18:32:13Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z) - Designing an Encoder for StyleGAN Image Manipulation [38.909059126878354]
最先端の無条件発電機であるStyleGANの潜伏空間について検討する。
そこで我々は,StyleGAN潜在空間における歪み依存性トレードオフと歪み知覚トレードオフの存在を同定し,解析する。
本稿では,実画像の編集を容易にするための2つの原理に基づくエンコーダを提案する。
論文 参考訳(メタデータ) (2021-02-04T17:52:38Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Towards Disentangling Latent Space for Unsupervised Semantic Face
Editing [21.190437168936764]
修正属性の編集には注釈付きトレーニングデータが必要で、編集可能な属性をラベル付き属性に制限する。
本稿では、重み分解と直交正規化(STIA-WO)を用いた構造テクスチュア独立アーキテクチャ(Structure-Texture Independent Architecture)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-05T03:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。