論文の概要: Diverse Semantic Image Synthesis via Probability Distribution Modeling
- arxiv url: http://arxiv.org/abs/2103.06878v1
- Date: Thu, 11 Mar 2021 18:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:38:39.837506
- Title: Diverse Semantic Image Synthesis via Probability Distribution Modeling
- Title(参考訳): 確率分布モデルによる多様なセマンティック画像合成
- Authors: Zhentao Tan and Menglei Chai and Dongdong Chen and Jing Liao and Qi
Chu and Bin Liu and Gang Hua and Nenghai Yu
- Abstract要約: 新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
- 参考スコア(独自算出の注目度): 103.88931623488088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image synthesis, translating semantic layouts to photo-realistic
images, is a one-to-many mapping problem. Though impressive progress has been
recently made, diverse semantic synthesis that can efficiently produce
semantic-level multimodal results, still remains a challenge. In this paper, we
propose a novel diverse semantic image synthesis framework from the perspective
of semantic class distributions, which naturally supports diverse generation at
semantic or even instance level. We achieve this by modeling class-level
conditional modulation parameters as continuous probability distributions
instead of discrete values, and sampling per-instance modulation parameters
through instance-adaptive stochastic sampling that is consistent across the
network. Moreover, we propose prior noise remapping, through linear
perturbation parameters encoded from paired references, to facilitate
supervised training and exemplar-based instance style control at test time.
Extensive experiments on multiple datasets show that our method can achieve
superior diversity and comparable quality compared to state-of-the-art methods.
Code will be available at \url{https://github.com/tzt101/INADE.git}
- Abstract(参考訳): 意味的レイアウトをフォトリアリスティックな画像に変換するセマンティック画像合成は、一対多のマッピング問題である。
最近は目覚ましい進歩があったが、セマンティックレベルのマルチモーダルな結果を効率的に生成できる多様なセマンティック合成は依然として課題である。
本論文では,セマンティッククラス分布の観点から,セマンティックレベルあるいはインスタンスレベルでの多様な生成を自然にサポートする,新しい多様なセマンティックイメージ合成フレームワークを提案する。
本研究では、離散値ではなく連続確率分布としてクラスレベルの条件変調パラメータをモデル化し、ネットワーク全体で一貫性のあるインスタンス適応確率的サンプリングにより、インスタンスごとの変調パラメータをサンプリングする。
さらに,ペア参照からエンコードされた線形摂動パラメータを用いて事前ノイズ再マッピングを行い,教師付きトレーニングとexemplarベースのインスタンススタイル制御を容易にする。
複数のデータセットに対する広範囲な実験により、本手法は最先端の手法に比べて優れた多様性と同等の品質を達成できることを示した。
コードは \url{https://github.com/tzt101/INADE.git} で利用できる。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow [94.90853153808987]
セマンティックセグメンテーションとセマンティックイメージ合成のための統合拡散ベースフレームワーク(SemFlow)を提案する。
トレーニング対象が対称であるため、イメージとセマンティックマスクの2つの分布に属するサンプルは、無理なく可逆的に転送することができる。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
論文 参考訳(メタデータ) (2024-05-30T17:34:40Z) - Improving Denoising Diffusion Probabilistic Models via Exploiting Shared
Representations [5.517338199249029]
SR-DDPMはノイズ拡散過程を逆転することで高品質な画像を生成する生成モデルのクラスである。
多様なデータ分布の類似性を利用して、画像の品質を損なうことなく、複数のタスクにスケールできる。
提案手法を標準画像データセット上で評価し、FIDとSSIMの指標で条件付きDDPMと条件付きDDPMの両方より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T22:30:26Z) - Variation-Aware Semantic Image Synthesis [5.232306238197685]
そこで本研究では,より高いクラス内変動,意味雑音,位置符号を有するVASIS(VASIS)を実現するための2つの簡単な手法を提案する。
我々のモデルでは、より自然な画像が生成され、FIDやmIoUよりも若干良い結果が得られる。
論文 参考訳(メタデータ) (2023-01-25T12:35:17Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。