論文の概要: Hierarchical Semantic Regularization of Latent Spaces in StyleGANs
- arxiv url: http://arxiv.org/abs/2208.03764v1
- Date: Sun, 7 Aug 2022 16:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:26:48.448902
- Title: Hierarchical Semantic Regularization of Latent Spaces in StyleGANs
- Title(参考訳): スタイルGANにおける潜在空間の階層的意味正規化
- Authors: Tejan Karmali, Rishubh Parihar, Susmit Agrawal, Harsh Rangwani, Varun
Jampani, Maneesh Singh, R. Venkatesh Babu
- Abstract要約: 本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
- 参考スコア(独自算出の注目度): 53.98170188547775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in GANs has enabled the generation of high-resolution photorealistic
images of astonishing quality. StyleGANs allow for compelling attribute
modification on such images via mathematical operations on the latent style
vectors in the W/W+ space that effectively modulate the rich hierarchical
representations of the generator. Such operations have recently been
generalized beyond mere attribute swapping in the original StyleGAN paper to
include interpolations. In spite of many significant improvements in StyleGANs,
they are still seen to generate unnatural images. The quality of the generated
images is predicated on two assumptions; (a) The richness of the hierarchical
representations learnt by the generator, and, (b) The linearity and smoothness
of the style spaces. In this work, we propose a Hierarchical Semantic
Regularizer (HSR) which aligns the hierarchical representations learnt by the
generator to corresponding powerful features learnt by pretrained networks on
large amounts of data. HSR is shown to not only improve generator
representations but also the linearity and smoothness of the latent style
spaces, leading to the generation of more natural-looking style-edited images.
To demonstrate improved linearity, we propose a novel metric - Attribute
Linearity Score (ALS). A significant reduction in the generation of unnatural
images is corroborated by improvement in the Perceptual Path Length (PPL)
metric by 16.19% averaged across different standard datasets while
simultaneously improving the linearity of attribute-change in the attribute
editing tasks.
- Abstract(参考訳): GANの進歩により、驚くべき品質の高解像度フォトリアリスティック画像の生成が可能になった。
StyleGANは、W/W+空間の潜在スタイルベクトルの数学的操作を通じて、そのような画像に対する魅力的な属性修正を可能にし、ジェネレータの豊富な階層表現を効果的に変調する。
このような操作は、元々のstyleganの論文で補間を含むために単なる属性スワップを超えて、最近一般化された。
StyleGANは大幅に改善されているが、いまだに不自然な画像を生成する。
生成された画像の品質は2つの仮定で予測される。
(a)ジェネレータによって学習された階層表現の豊かさ、及び
(b)スタイル空間の線型性と滑らか性。
本研究では,生成者が学習する階層的表現を,大量のデータに対して事前学習したネットワークによって学習される強力な特徴に対応づける階層的意味正規化器(hsr)を提案する。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
線形性の向上を示すために,新しい指標-属性線形性スコア(als)を提案する。
不自然な画像の生成の大幅な削減は、異なる標準データセット間で平均16.19%の知覚パス長(PPL)メートル法の改善と、属性編集タスクにおける属性変更の線形性の改善によって裏付けられている。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-12-22T20:06:53Z) - Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - Latent Multi-Relation Reasoning for GAN-Prior based Image
Super-Resolution [61.65012981435095]
LARENはグラフベースの非絡み合いであり、階層的マルチリレーショナル推論によってより優れた非絡み合い空間を構築する。
我々は、LARENが優れた大因子画像SRを実現し、複数のベンチマークで常に最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-08-04T19:45:21Z) - Everything is There in Latent Space: Attribute Editing and Attribute
Style Manipulation by StyleGAN Latent Space Exploration [39.18239951479647]
RAAME (Few-shot Latent-based Attribute Manipulation and Editing) について紹介する。
FLAMEは、遅延空間操作によって高度に制御された画像編集を行うためのフレームワークである。
様々な属性スタイルをアンタングル的に生成する。
論文 参考訳(メタデータ) (2022-07-20T12:40:32Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Latent Transformations via NeuralODEs for GAN-based Image Editing [25.272389610447856]
トレーニング可能なNeural ODEのフローとして実現された非線形潜時符号操作は、多くの実用的な非顔画像領域にとって有益であることを示す。
特に、既知の属性を持つ多数のデータセットを調査し、ある属性操作が線形シフトのみで取得することが困難であることを実証する。
論文 参考訳(メタデータ) (2021-11-29T18:59:54Z) - StyleGAN-induced data-driven regularization for inverse problems [2.5138572116292686]
GAN(Generative Adversarial Network)の最近の進歩は、これまで生成できなかった高解像度画像の生成の可能性を広げている。
本研究では,事前学習したStyleGAN2ジェネレータの潜在能力を生かしたフレームワークを開発した。
画像インペイントと超解像の逆問題を考えると、提案手法は最先端のGANベースの画像再構成手法と競合し、時には優位であることを示す。
論文 参考訳(メタデータ) (2021-10-07T22:25:30Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。