論文の概要: Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images
- arxiv url: http://arxiv.org/abs/2312.15037v1
- Date: Fri, 22 Dec 2023 20:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:13:00.995322
- Title: Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images
- Title(参考訳): latents2semantics: 顔画像の局所的なスタイル操作に生成モデルの潜在空間を利用する
- Authors: Snehal Singh Tomar, A.N. Rajagopalan
- Abstract要約: 顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
- 参考スコア(独自算出の注目度): 25.82631308991067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the metaverse slowly becoming a reality and given the rapid pace of
developments toward the creation of digital humans, the need for a principled
style editing pipeline for human faces is bound to increase manifold. We cater
to this need by introducing the Latents2Semantics Autoencoder (L2SAE), a
Generative Autoencoder model that facilitates highly localized editing of style
attributes of several Regions of Interest (ROIs) in face images. The L2SAE
learns separate latent representations for encoded images' structure and style
information. Thus, allowing for structure-preserving style editing of the
chosen ROIs. The encoded structure representation is a multichannel 2D tensor
with reduced spatial dimensions, which captures both local and global structure
properties. The style representation is a 1D tensor that captures global style
attributes. In our framework, we slice the structure representation to build
strong and disentangled correspondences with different ROIs. Consequentially,
style editing of the chosen ROIs amounts to a simple combination of (a) the
ROI-mask generated from the sliced structure representation and (b) the decoded
image with global style changes, generated from the manipulated (using Gaussian
noise) global style and unchanged structure tensor. Style editing sans
additional human supervision is a significant win over SOTA style editing
pipelines because most existing works require additional human effort
(supervision) post-training for attributing semantic meaning to style edits. We
also do away with iterative-optimization-based inversion or determining
controllable latent directions post-training, which requires additional
computationally expensive operations. We provide qualitative and quantitative
results for the same over multiple applications, such as selective style
editing and swapping using test images sampled from several datasets.
- Abstract(参考訳): メタバースが徐々に現実のものとなり、デジタル人間の創造に向けた急速な発展のペースを考えると、人間の顔のための原理化されたスタイルの編集パイプラインの必要性は多様体を増加させることに縛られる。
顔画像中の複数の領域(ROI)のスタイル属性の高度に局所化された編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を導入することで、このニーズに応える。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習する。
これにより、選択したroisの構造保存スタイル編集が可能になる。
符号化された構造表現は空間次元を小さくしたマルチチャネル2次元テンソルであり、局所構造特性と大域構造特性の両方をキャプチャする。
スタイル表現はグローバルなスタイル属性をキャプチャする1Dテンソルである。
フレームワークでは、構造表現をスライスして、異なるROIの強い不整合対応を構築する。
選択されたROIのスタイル編集は、単純な組み合わせに相当します。
(a)スライスされた構造表現から生じるROIマスク及び
(b)グローバルスタイル(ガウスノイズを使用)と不変構造テンソルから生成されたグローバルスタイル変更によるデコード画像。
スタイル編集は、スタイル編集に意味的意味をもたらすために、既存の作品の多くは追加の人的努力(スーパービジョン)を必要とするため、SOTAスタイルの編集パイプラインよりも人的監督が優れている。
また、反復最適化に基づく反転や、計算コストのかかる演算を必要とする訓練後の潜在方向の制御を廃止する。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
関連論文リスト
- ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Does resistance to style-transfer equal Global Shape Bias? Measuring
network sensitivity to global shape configuration [6.047146237332764]
モデル全体の形状バイアスを評価するための最新のベンチマークは、スタイル変換された画像のセットである。
スタイル伝達画像で訓練されたネットワークは、実際にスタイルを無視することを学ぶが、その形状バイアスは、主に局所的な詳細から生じる。
論文 参考訳(メタデータ) (2023-10-11T15:00:11Z) - Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - Efficient and Explicit Modelling of Image Hierarchies for Image
Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。
そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。
そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:59:29Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - Everything is There in Latent Space: Attribute Editing and Attribute
Style Manipulation by StyleGAN Latent Space Exploration [39.18239951479647]
RAAME (Few-shot Latent-based Attribute Manipulation and Editing) について紹介する。
FLAMEは、遅延空間操作によって高度に制御された画像編集を行うためのフレームワークである。
様々な属性スタイルをアンタングル的に生成する。
論文 参考訳(メタデータ) (2022-07-20T12:40:32Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。