論文の概要: Which Style Makes Me Attractive? Interpretable Control Discovery and
Counterfactual Explanation on StyleGAN
- arxiv url: http://arxiv.org/abs/2201.09689v1
- Date: Mon, 24 Jan 2022 13:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 21:30:19.532967
- Title: Which Style Makes Me Attractive? Interpretable Control Discovery and
Counterfactual Explanation on StyleGAN
- Title(参考訳): どんなスタイルで私を惹きつけるのか?
StyleGANの解釈可能な制御発見と非現実的説明
- Authors: Bo Li, Qiulin Wang, Jiquan Pei, Yu Yang, Xiangyang Ji
- Abstract要約: GANのセマンティックに切り離された潜在部分空間は、画像生成において豊富な解釈可能な制御を提供する。
本稿では,StyleGAN2を用いた顔生成のシナリオにおける意味潜在部分空間解析への2つの貢献について述べる。
- 参考スコア(独自算出の注目度): 41.27012858759178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The semantically disentangled latent subspace in GAN provides rich
interpretable controls in image generation. This paper includes two
contributions on semantic latent subspace analysis in the scenario of face
generation using StyleGAN2. First, we propose a novel approach to disentangle
latent subspace semantics by exploiting existing face analysis models, e.g.,
face parsers and face landmark detectors. These models provide the flexibility
to construct various criterions with very concrete and interpretable semantic
meanings (e.g., change face shape or change skin color) to restrict latent
subspace disentanglement. Rich latent space controls unknown previously can be
discovered using the constructed criterions. Second, we propose a new
perspective to explain the behavior of a CNN classifier by generating
counterfactuals in the interpretable latent subspaces we discovered. This
explanation helps reveal whether the classifier learns semantics as intended.
Experiments on various disentanglement criterions demonstrate the effectiveness
of our approach. We believe this approach contributes to both areas of image
manipulation and counterfactual explainability of CNNs. The code is available
at \url{https://github.com/prclibo/ice}.
- Abstract(参考訳): GANのセマンティックに切り離された潜在部分空間は、画像生成において豊富な解釈可能な制御を提供する。
本稿では,StyleGAN2を用いた顔生成のシナリオにおける意味潜在部分空間解析への2つの貢献について述べる。
まず,フェースパーサや顔ランドマーク検出器などの既存の顔解析モデルを活用することで,潜在部分空間意味論を解き明かす新しい手法を提案する。
これらのモデルは、非常に具体的で解釈可能な意味(例えば、顔の形を変えたり、肌の色を変えたり)で様々な基準を構築する柔軟性を提供し、潜在部分空間のゆがみを制限する。
未知のリッチな潜在空間制御は、構築された基準を用いて発見することができる。
次に,CNN分類器の動作を説明するための新たな視点を提案する。
この説明は、分類器が意図した意味を学習するかどうかを明らかにするのに役立つ。
様々な絡み合い基準の実験は、我々のアプローチの有効性を実証している。
このアプローチは画像操作とCNNの非現実的説明可能性の両方に寄与すると考えている。
コードは \url{https://github.com/prclibo/ice} で入手できる。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - SC2GAN: Rethinking Entanglement by Self-correcting Correlated GAN Space [16.040942072859075]
ある属性の編集方向に従う遺伝子ネットワークは、他の属性と絡み合った変更をもたらす可能性がある。
本稿では,低密度の潜伏コードサンプルを元の潜伏空間に再プロジェクションすることで,SC$2$GANのアンタングル化を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T14:42:32Z) - Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models [21.173910627285338]
DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
論文 参考訳(メタデータ) (2023-03-20T12:59:32Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Discovering Class-Specific GAN Controls for Semantic Image Synthesis [73.91655061467988]
本稿では,事前訓練されたSISモデルの潜在空間において,空間的に不整合なクラス固有方向を求める新しい手法を提案する。
提案手法によって検出される潜在方向は,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
論文 参考訳(メタデータ) (2022-12-02T21:39:26Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。