Fugu-MT 論文翻訳(概要): Semantic Image Synthesis via Class-Adaptive Cross-Attention

論文の概要: Semantic Image Synthesis via Class-Adaptive Cross-Attention

arxiv url: http://arxiv.org/abs/2308.16071v3
Date: Tue, 30 Jul 2024 13:09:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 22:49:41.808800
Title: Semantic Image Synthesis via Class-Adaptive Cross-Attention
Title（参考訳）: クラス適応的クロスアテンションによる意味的画像合成
Authors: Tomaso Fontanini, Claudio Ferrari, Giuseppe Lisanti, Massimo Bertozzi, Andrea Prati,
Abstract要約: SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
参考スコア（独自算出の注目度）: 7.147779225315707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In semantic image synthesis the state of the art is dominated by methods that use customized variants of the SPatially-Adaptive DE-normalization (SPADE) layers, which allow for good visual generation quality and editing versatility. By design, such layers learn pixel-wise modulation parameters to de-normalize the generator activations based on the semantic class each pixel belongs to. Thus, they tend to overlook global image statistics, ultimately leading to unconvincing local style editing and causing global inconsistencies such as color or illumination distribution shifts. Also, SPADE layers require the semantic segmentation mask for mapping styles in the generator, preventing shape manipulations without manual intervention. In response, we designed a novel architecture where cross-attention layers are used in place of SPADE for learning shape-style correlations and so conditioning the image generation process. Our model inherits the versatility of SPADE, at the same time obtaining state-of-the-art generation quality, as well as improved global and local style transfer. Code and models available at https://github.com/TFonta/CA2SIS.
Abstract（参考訳）: セマンティック画像合成において、最先端技術はSPADE(SPatially-Adaptive DE-normalization)層のカスタマイズされたバリエーションを使用する方法に支配されている。設計によって、これらのレイヤはピクセルワイドな変調パラメータを学習し、各ピクセルが属するセマンティッククラスに基づいてジェネレータのアクティベーションを非正規化する。したがって、彼らはグローバルな画像統計を見落とし、最終的にローカルなスタイルの編集を難しくし、色や照明の分布シフトのようなグローバルな不整合を引き起こす傾向にある。また、SPADEレイヤはジェネレータのスタイルをマッピングするためにセマンティックセグメンテーションマスクを必要とし、手動で介入することなく形状操作を防止する。そこで我々は,SPADEの代わりにクロスアテンション層を用いて形状相関を学習し,画像生成プロセスの条件付けを行う新しいアーキテクチャを設計した。我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。コードとモデルはhttps://github.com/TFonta/CA2SISで公開されている。

関連論文リスト

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition [73.43121650616804]
単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-12-17T17:12:42Z)
Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation [4.50001192781448]
拡散モデルを用いた意味論的一貫したスタイル伝達のための2つの新しい手法を提案する。 GTA5をソースとして,Cityscapes/ACDCをターゲットドメインとして実験したところ,FIDスコアが低く,コンテンツ保存性が向上した高品質な画像が得られた。
論文参考訳（メタデータ） (2025-05-22T08:11:10Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文参考訳（メタデータ） (2025-02-25T16:57:04Z)
LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors [38.47462111828742]
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
論文参考訳（メタデータ） (2024-12-05T18:59:18Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。 LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文参考訳（メタデータ） (2024-03-18T16:28:28Z)
Latents2Semantics: Leveraging the Latent Space of Generative Models for Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。 L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文参考訳（メタデータ） (2023-12-22T20:06:53Z)
Efficient and Explicit Modelling of Image Hierarchies for Image Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-03-01T18:59:29Z)
Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文参考訳（メタデータ） (2022-12-18T11:42:51Z)
Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。 HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文参考訳（メタデータ） (2022-08-07T16:23:33Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
V-LinkNet: Learning Contextual Inpainting Across Latent Space of Generative Adversarial Network [7.5089719291325325]
V-LinkNetクロススペース学習戦略ネットワークを提案する。同一面と同一面の異なる面と同一面の異なる面の塗装性能を比較した。この結果は,CelebA-HQで標準プロトコルを用いて評価した場合に,技術状況を上回るものとなる。
論文参考訳（メタデータ） (2022-01-02T09:14:23Z)
One-shot domain adaptation for semantic face editing of real world images using StyleALAE [7.541747299649292]
styleALAEは遅延空間ベースのオートエンコーダで、高品質のフォトリアリスティック画像を生成することができる。我々の研究は、再構成された画像の同一性が与えられた入力画像と同じであることを保証します。さらに、事前訓練されたスタイルALAEモデルの潜在空間を用いて、再構成画像に対する意味的な修正を生成する。
論文参考訳（メタデータ） (2021-08-31T14:32:18Z)
Diversifying Semantic Image Synthesis and Editing via Class- and Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文参考訳（メタデータ） (2021-06-25T04:12:05Z)
Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文参考訳（メタデータ） (2021-05-31T07:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。