論文の概要: StyleFusion: A Generative Model for Disentangling Spatial Segments
- arxiv url: http://arxiv.org/abs/2107.07437v1
- Date: Thu, 15 Jul 2021 16:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:00:12.106967
- Title: StyleFusion: A Generative Model for Disentangling Spatial Segments
- Title(参考訳): StyleFusion: 空間セグメントを拡大するための生成モデル
- Authors: Omer Kafri, Or Patashnik, Yuval Alaluf, Daniel Cohen-Or
- Abstract要約: StyleGANの新しいマッピングアーキテクチャであるStyleFusionを紹介する。
StyleFusionは、複数の潜伏したコードを入力として、それらを単一のスタイルのコードにフューズする。
生成された画像の各領域のきめ細かい制御を提供する。
- 参考スコア(独自算出の注目度): 41.35834479560669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present StyleFusion, a new mapping architecture for StyleGAN, which takes
as input a number of latent codes and fuses them into a single style code.
Inserting the resulting style code into a pre-trained StyleGAN generator
results in a single harmonized image in which each semantic region is
controlled by one of the input latent codes. Effectively, StyleFusion yields a
disentangled representation of the image, providing fine-grained control over
each region of the generated image. Moreover, to help facilitate global control
over the generated image, a special input latent code is incorporated into the
fused representation. StyleFusion operates in a hierarchical manner, where each
level is tasked with learning to disentangle a pair of image regions (e.g., the
car body and wheels). The resulting learned disentanglement allows one to
modify both local, fine-grained semantics (e.g., facial features) as well as
more global features (e.g., pose and background), providing improved
flexibility in the synthesis process. As a natural extension, StyleFusion
enables one to perform semantically-aware cross-image mixing of regions that
are not necessarily aligned. Finally, we demonstrate how StyleFusion can be
paired with existing editing techniques to more faithfully constrain the edit
to the user's region of interest.
- Abstract(参考訳): styleganの新しいマッピングアーキテクチャであるstylefusionを提案する。このアーキテクチャは潜んでいるコードを入力し、それらを単一のスタイルコードに融合する。
得られたスタイルコードを事前訓練されたStyleGANジェネレータに挿入すると、各セマンティック領域が入力潜在符号の1つによって制御される単一の調和画像が得られる。
効果的に、StyleFusionは画像の不整合表現を生成し、生成された画像の各領域を細かく制御する。
さらに、生成された画像のグローバル制御を容易にするために、融合表現に特別な入力潜在コードを組み込む。
StyleFusionは階層的な方法で動作し、各レベルは、一対のイメージ領域(例えば車体と車輪)をアンタングルする学習を行う。
これにより、局所的およびきめ細かい意味論(例えば、顔の特徴)とよりグローバルな特徴(例えば、ポーズと背景)を修正でき、合成プロセスの柔軟性を向上させることができる。
自然な拡張として、StyleFusionは必ずしも一致しない領域を意味的に認識するクロスイメージの混合を実行することができる。
最後に,StyleFusionを既存の編集技術と組み合わせることで,ユーザの関心領域に編集をより忠実に制約することができることを示す。
関連論文リスト
- Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - SemanticStyleGAN: Learning Compositional Generative Priors for
Controllable Image Synthesis and Editing [35.02841064647306]
StyleGANは、画像合成と編集の下流タスクに有望な事前モデルを提供する。
本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。
論文 参考訳(メタデータ) (2021-12-04T04:17:11Z) - Manifold Alignment for Semantically Aligned Style Transfer [61.1274057338588]
我々は,同じ意味領域からの画像特徴が多様体を形成し,複数の意味領域を持つ画像が多次元分布に従うことを仮定する。
この仮定に基づき、スタイル伝達問題は2つの多次元分布の整列として定式化される。
提案したフレームワークは、出力とスタイルイメージの間の意味的に類似した領域を、類似したスタイルパターンを共有することができる。
論文 参考訳(メタデータ) (2020-05-21T16:52:37Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。