論文の概要: Semantic Image Synthesis via Class-Adaptive Cross-Attention
- arxiv url: http://arxiv.org/abs/2308.16071v1
- Date: Wed, 30 Aug 2023 14:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:04:17.612155
- Title: Semantic Image Synthesis via Class-Adaptive Cross-Attention
- Title(参考訳): class-adaptive cross-attention による意味画像合成
- Authors: Tomaso Fontanini, Claudio Ferrari, Giuseppe Lisanti, Massimo Bertozzi,
Andrea Prati
- Abstract要約: 画像生成の条件付けのための非正規化の代わりに、クロスアテンション層が使用される。
我々のモデルは両ソリューションの利点を継承し、最先端の再構築品質を維持し、グローバルおよびローカルなスタイル転送を改善した。
- 参考スコア(独自算出の注目度): 7.668466022776589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In semantic image synthesis, the state of the art is dominated by methods
that use spatially-adaptive normalization layers, which allow for excellent
visual generation quality and editing versatility. Granted their efficacy,
recent research efforts have focused toward finer-grained local style control
and multi-modal generation. By construction though, such layers tend to
overlook global image statistics leading to unconvincing local style editing
and causing global inconsistencies such as color or illumination distribution
shifts. Also, the semantic layout is required for mapping styles in the
generator, putting a strict alignment constraint over the features. In
response, we designed a novel architecture where cross-attention layers are
used in place of de-normalization ones for conditioning the image generation.
Our model inherits the advantages of both solutions, retaining state-of-the-art
reconstruction quality, as well as improved global and local style transfer.
Code and models available at https://github.com/TFonta/CA2SIS.
- Abstract(参考訳): セマンティック画像合成において、アートの状態は空間適応正規化層を用いる方法によって支配され、それによって優れた視覚生成品質と多彩な編集が可能となる。
有効性を認めながら、最近の研究はよりきめ細かい局所的なスタイル制御とマルチモーダル生成に焦点を当てている。
しかし、このような層は、局所的なスタイル編集を阻害し、色や照明分布のシフトのようなグローバル不整合を引き起こすような、全体像の統計を過度に見落としがちである。
また、ジェネレータのスタイルをマッピングするにはセマンティックレイアウトが必要であり、機能に対して厳格なアライメント制約を課す。
そこで我々は,画像生成の条件付けのための非正規化にクロスアテンション層を用いる新しいアーキテクチャを設計した。
我々のモデルは両ソリューションの利点を継承し、最先端の再構築品質を維持し、グローバルおよびローカルなスタイル転送を改善した。
コードとモデルはhttps://github.com/TFonta/CA2SISで公開されている。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-12-22T20:06:53Z) - Efficient and Explicit Modelling of Image Hierarchies for Image
Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。
そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。
そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:59:29Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - V-LinkNet: Learning Contextual Inpainting Across Latent Space of
Generative Adversarial Network [7.5089719291325325]
V-LinkNetクロススペース学習戦略ネットワークを提案する。
同一面と同一面の異なる面と同一面の異なる面の塗装性能を比較した。
この結果は,CelebA-HQで標準プロトコルを用いて評価した場合に,技術状況を上回るものとなる。
論文 参考訳(メタデータ) (2022-01-02T09:14:23Z) - One-shot domain adaptation for semantic face editing of real world
images using StyleALAE [7.541747299649292]
styleALAEは遅延空間ベースのオートエンコーダで、高品質のフォトリアリスティック画像を生成することができる。
我々の研究は、再構成された画像の同一性が与えられた入力画像と同じであることを保証します。
さらに、事前訓練されたスタイルALAEモデルの潜在空間を用いて、再構成画像に対する意味的な修正を生成する。
論文 参考訳(メタデータ) (2021-08-31T14:32:18Z) - Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文 参考訳(メタデータ) (2021-06-25T04:12:05Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。