論文の概要: Diverse Semantic Image Synthesis via Probability Distribution Modeling
- arxiv url: http://arxiv.org/abs/2103.06878v1
- Date: Thu, 11 Mar 2021 18:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:38:39.837506
- Title: Diverse Semantic Image Synthesis via Probability Distribution Modeling
- Title(参考訳): 確率分布モデルによる多様なセマンティック画像合成
- Authors: Zhentao Tan and Menglei Chai and Dongdong Chen and Jing Liao and Qi
Chu and Bin Liu and Gang Hua and Nenghai Yu
- Abstract要約: 新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
- 参考スコア(独自算出の注目度): 103.88931623488088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image synthesis, translating semantic layouts to photo-realistic
images, is a one-to-many mapping problem. Though impressive progress has been
recently made, diverse semantic synthesis that can efficiently produce
semantic-level multimodal results, still remains a challenge. In this paper, we
propose a novel diverse semantic image synthesis framework from the perspective
of semantic class distributions, which naturally supports diverse generation at
semantic or even instance level. We achieve this by modeling class-level
conditional modulation parameters as continuous probability distributions
instead of discrete values, and sampling per-instance modulation parameters
through instance-adaptive stochastic sampling that is consistent across the
network. Moreover, we propose prior noise remapping, through linear
perturbation parameters encoded from paired references, to facilitate
supervised training and exemplar-based instance style control at test time.
Extensive experiments on multiple datasets show that our method can achieve
superior diversity and comparable quality compared to state-of-the-art methods.
Code will be available at \url{https://github.com/tzt101/INADE.git}
- Abstract(参考訳): 意味的レイアウトをフォトリアリスティックな画像に変換するセマンティック画像合成は、一対多のマッピング問題である。
最近は目覚ましい進歩があったが、セマンティックレベルのマルチモーダルな結果を効率的に生成できる多様なセマンティック合成は依然として課題である。
本論文では,セマンティッククラス分布の観点から,セマンティックレベルあるいはインスタンスレベルでの多様な生成を自然にサポートする,新しい多様なセマンティックイメージ合成フレームワークを提案する。
本研究では、離散値ではなく連続確率分布としてクラスレベルの条件変調パラメータをモデル化し、ネットワーク全体で一貫性のあるインスタンス適応確率的サンプリングにより、インスタンスごとの変調パラメータをサンプリングする。
さらに,ペア参照からエンコードされた線形摂動パラメータを用いて事前ノイズ再マッピングを行い,教師付きトレーニングとexemplarベースのインスタンススタイル制御を容易にする。
複数のデータセットに対する広範囲な実験により、本手法は最先端の手法に比べて優れた多様性と同等の品質を達成できることを示した。
コードは \url{https://github.com/tzt101/INADE.git} で利用できる。
関連論文リスト
- Stochastic Conditional Diffusion Models for Semantic Image Synthesis [14.681885856543564]
セマンティック画像合成(英: Semantic Image synthesis, SIS)は、セマンティックマップ(ラベル)に対応する現実的な画像を生成するタスクである。
雑音ラベル付きSISに適した新しい前処理と生成処理を特徴とする条件拡散モデル(SCDM)を提案する。
提案手法は,広範囲な実験とベンチマークデータセットの分析により,高品質なサンプルを生成する。
論文 参考訳(メタデータ) (2024-02-26T11:41:28Z) - Improving Denoising Diffusion Probabilistic Models via Exploiting Shared
Representations [5.517338199249029]
SR-DDPMはノイズ拡散過程を逆転することで高品質な画像を生成する生成モデルのクラスである。
多様なデータ分布の類似性を利用して、画像の品質を損なうことなく、複数のタスクにスケールできる。
提案手法を標準画像データセット上で評価し、FIDとSSIMの指標で条件付きDDPMと条件付きDDPMの両方より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T22:30:26Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Variation-Aware Semantic Image Synthesis [5.232306238197685]
そこで本研究では,より高いクラス内変動,意味雑音,位置符号を有するVASIS(VASIS)を実現するための2つの簡単な手法を提案する。
我々のモデルでは、より自然な画像が生成され、FIDやmIoUよりも若干良い結果が得られる。
論文 参考訳(メタデータ) (2023-01-25T12:35:17Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Relaxed-Responsibility Hierarchical Discrete VAEs [3.976291254896486]
textitRelaxed-Responsibility Vector-Quantisationを導入する。
我々は、様々な標準データセットに対して、最先端のビット/ディミット結果を得る。
論文 参考訳(メタデータ) (2020-07-14T19:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。