論文の概要: Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis
- arxiv url: http://arxiv.org/abs/2204.02854v1
- Date: Wed, 6 Apr 2022 14:21:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 18:51:37.128624
- Title: Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis
- Title(参考訳): 意味画像合成のための検索に基づく空間適応正規化
- Authors: Yupeng Shi, Xiao Liu, Yuxiang Wei, Zhongqin Wu and Wangmeng Zuo
- Abstract要約: 本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
- 参考スコア(独自算出の注目度): 68.1281982092765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic image synthesis is a challenging task with many practical
applications. Albeit remarkable progress has been made in semantic image
synthesis with spatially-adaptive normalization and existing methods normalize
the feature activations under the coarse-level guidance (e.g., semantic class).
However, different parts of a semantic object (e.g., wheel and window of car)
are quite different in structures and textures, making blurry synthesis results
usually inevitable due to the missing of fine-grained guidance. In this paper,
we propose a novel normalization module, termed as REtrieval-based Spatially
AdaptIve normaLization (RESAIL), for introducing pixel level fine-grained
guidance to the normalization architecture. Specifically, we first present a
retrieval paradigm by finding a content patch of the same semantic class from
training set with the most similar shape to each test semantic mask. Then,
RESAIL is presented to use the retrieved patch for guiding the feature
normalization of corresponding region, and can provide pixel level fine-grained
guidance, thereby greatly mitigating blurry synthesis results. Moreover,
distorted ground-truth images are also utilized as alternatives of
retrieval-based guidance for feature normalization, further benefiting model
training and improving visual quality of generated images. Experiments on
several challenging datasets show that our RESAIL performs favorably against
state-of-the-arts in terms of quantitative metrics, visual quality, and
subjective evaluation. The source code and pre-trained models will be publicly
available.
- Abstract(参考訳): セマンティック画像合成は多くの実用的な応用において難しい課題である。
空間適応正規化を用いたセマンティック画像合成や、粗いレベルのガイダンス(セマンティッククラスなど)の下で特徴の活性化を正規化する既存の手法は、目覚ましい進歩を遂げている。
しかし、セマンティックオブジェクトの異なる部分(例えば、車輪と車の窓)は構造やテクスチャにおいてかなり異なるため、細かいガイダンスが欠如しているため、ぼやけた合成結果は通常避けられない。
本稿では,Retrieval-based Spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
具体的には、まず、各テストセマンティックマスクに最もよく似た形状のトレーニングセットから、同じセマンティッククラスのコンテンツパッチを見つけることで、検索パラダイムを提示する。
そして、取得したパッチを用いて対応する領域の特徴正規化を導出し、画素レベルのきめ細かいガイダンスを提供することにより、ぼやけた合成結果を大幅に軽減する。
また,特徴正規化のための検索に基づくガイダンスの代替として,変形した地対面画像が活用され,モデルのトレーニングや生成画像の視覚品質の向上が期待できる。
いくつかの挑戦的なデータセットにおける実験により、我々のリセイルは定量的指標、視覚的品質、主観的評価の点で最先端技術に対して有利に機能することが示された。
ソースコードと事前訓練されたモデルが公開される。
関連論文リスト
- PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Segment Anything Model Meets Image Harmonization [13.415810438244788]
合成画像の前景を調整して背景をシームレスに整合させることを目的とした画像合成において,画像調和は重要な技術である。
現在の手法では、グローバルレベルまたはピクセルレベルの特徴マッチングが採用されている。
本研究では,前景と背景特徴の視覚的一貫性学習を導くために,事前学習したセグメンテーションモデル(SAM)によって出力されるセグメンテーションマップを利用する意味誘導型領域認識型インスタンス正規化(SRIN)を提案する。
論文 参考訳(メタデータ) (2023-12-20T02:57:21Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Semantically Adaptive Image-to-image Translation for Domain Adaptation
of Semantic Segmentation [1.8275108630751844]
街路シーンのセマンティックセグメンテーションにおけるドメイン適応の問題に対処する。
最先端のアプローチの多くは、結果が入力とセマンティックに一致していることを示しながら、ソースイメージの翻訳に重点を置いている。
画像のセマンティクスを利用して翻訳アルゴリズムを導くことも提案する。
論文 参考訳(メタデータ) (2020-09-02T16:16:50Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Panoptic-based Image Synthesis [32.82903428124024]
条件付き画像合成は、コンテンツ編集からコンテンツ生成への様々な応用を提供する。
本研究では,パノプティカルマップに条件付き高忠実度・光実写画像を生成するために,パノプティカル・アウェア・イメージ合成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-21T20:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。