論文の概要: PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2403.01852v1
- Date: Mon, 4 Mar 2024 09:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:26:47.998973
- Title: PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis
- Title(参考訳): place: セマンティック画像合成のための適応レイアウト・意味融合
- Authors: Zhengyao Lv and Yuxiang Wei and Wangmeng Zuo and Kwan-Yee K. Wong
- Abstract要約: 一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
- 参考スコア(独自算出の注目度): 62.29033292210752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large-scale pre-trained text-to-image models have led
to remarkable progress in semantic image synthesis. Nevertheless, synthesizing
high-quality images with consistent semantics and layout remains a challenge.
In this paper, we propose the adaPtive LAyout-semantiC fusion modulE (PLACE)
that harnesses pre-trained models to alleviate the aforementioned issues.
Specifically, we first employ the layout control map to faithfully represent
layouts in the feature space. Subsequently, we combine the layout and semantic
features in a timestep-adaptive manner to synthesize images with realistic
details. During fine-tuning, we propose the Semantic Alignment (SA) loss to
further enhance layout alignment. Additionally, we introduce the Layout-Free
Prior Preservation (LFP) loss, which leverages unlabeled data to maintain the
priors of pre-trained models, thereby improving the visual quality and semantic
consistency of synthesized images. Extensive experiments demonstrate that our
approach performs favorably in terms of visual quality, semantic consistency,
and layout alignment. The source code and model are available at
https://github.com/cszy98/PLACE/tree/main.
- Abstract(参考訳): 近年の大規模事前学習型画像合成モデルの進歩は,意味的画像合成において顕著な進歩をもたらした。
それでも、一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージの合成は依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
具体的には,まずレイアウト制御マップを用いて特徴空間のレイアウトを忠実に表現する。
次に,レイアウトと意味的特徴を時間ステップ適応的に組み合わせ,画像とリアルな詳細を合成する。
微調整中、レイアウトアライメントをさらに高めるためにセマンティックアライメント(SA)損失を提案する。
さらに,未ラベルデータを活用して事前学習モデルの事前保持を行い,合成画像の視覚的品質と意味的一貫性を向上させる,レイアウトフリー事前保存(lfp)損失について紹介する。
広範な実験により,我々のアプローチは視覚的品質,意味的一貫性,レイアウトアライメントの観点から良好に機能することが示された。
ソースコードとモデルはhttps://github.com/cszy98/place/tree/mainで入手できる。
関連論文リスト
- Label-free Neural Semantic Image Synthesis [12.194020204848492]
本稿では,事前学習した基礎モデルから抽出したニューラルネットワークレイアウトを条件付けとして,ニューラルセマンティック画像合成の概念を導入する。
ニューラルセマンティック画像合成により合成された画像が、セマンティッククラスの類似あるいは優れた画素レベルのアライメントを実現することを実験的に示す。
ニューラルレイアウト条件付けによって生成された画像は、様々な知覚タスクを訓練するための実データを効果的に増強できることを示す。
論文 参考訳(メタデータ) (2024-07-01T20:30:23Z) - Spatial-Aware Latent Initialization for Controllable Image Generation [9.23227552726271]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力に条件付けされた高品質な画像を生成することができる。
従来の研究は、主にレイアウト条件と交差注意マップの整合性に重点を置いてきた。
そこで本研究では,デノナイズ過程における空間認識初期化雑音を利用して,より優れたレイアウト制御を実現することを提案する。
論文 参考訳(メタデータ) (2024-01-29T13:42:01Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - Semantic-shape Adaptive Feature Modulation for Semantic Image Synthesis [71.56830815617553]
きめ細かい部分レベルのセマンティックレイアウトは、オブジェクトの詳細生成に役立ちます。
各画素の位置特徴を記述するために,SPD (Shape-aware Position Descriptor) を提案する。
セマンティック形状適応特徴変調 (SAFM) ブロックは, 与えられた意味マップと位置特徴を組み合わせるために提案される。
論文 参考訳(メタデータ) (2022-03-31T09:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。