Fugu-MT 論文翻訳(概要): Diverse Semantic Image Synthesis via Probability Distribution Modeling

論文の概要: Diverse Semantic Image Synthesis via Probability Distribution Modeling

arxiv url: http://arxiv.org/abs/2103.06878v1
Date: Thu, 11 Mar 2021 18:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-12 14:38:39.837506
Title: Diverse Semantic Image Synthesis via Probability Distribution Modeling
Title（参考訳）: 確率分布モデルによる多様なセマンティック画像合成
Authors: Zhentao Tan and Menglei Chai and Dongdong Chen and Jing Liao and Qi Chu and Bin Liu and Gang Hua and Nenghai Yu
Abstract要約: 新規な多様な意味的画像合成フレームワークを提案する。本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
参考スコア（独自算出の注目度）: 103.88931623488088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic image synthesis, translating semantic layouts to photo-realistic images, is a one-to-many mapping problem. Though impressive progress has been recently made, diverse semantic synthesis that can efficiently produce semantic-level multimodal results, still remains a challenge. In this paper, we propose a novel diverse semantic image synthesis framework from the perspective of semantic class distributions, which naturally supports diverse generation at semantic or even instance level. We achieve this by modeling class-level conditional modulation parameters as continuous probability distributions instead of discrete values, and sampling per-instance modulation parameters through instance-adaptive stochastic sampling that is consistent across the network. Moreover, we propose prior noise remapping, through linear perturbation parameters encoded from paired references, to facilitate supervised training and exemplar-based instance style control at test time. Extensive experiments on multiple datasets show that our method can achieve superior diversity and comparable quality compared to state-of-the-art methods. Code will be available at \url{https://github.com/tzt101/INADE.git}
Abstract（参考訳）: 意味的レイアウトをフォトリアリスティックな画像に変換するセマンティック画像合成は、一対多のマッピング問題である。最近は目覚ましい進歩があったが、セマンティックレベルのマルチモーダルな結果を効率的に生成できる多様なセマンティック合成は依然として課題である。本論文では,セマンティッククラス分布の観点から,セマンティックレベルあるいはインスタンスレベルでの多様な生成を自然にサポートする,新しい多様なセマンティックイメージ合成フレームワークを提案する。本研究では、離散値ではなく連続確率分布としてクラスレベルの条件変調パラメータをモデル化し、ネットワーク全体で一貫性のあるインスタンス適応確率的サンプリングにより、インスタンスごとの変調パラメータをサンプリングする。さらに,ペア参照からエンコードされた線形摂動パラメータを用いて事前ノイズ再マッピングを行い,教師付きトレーニングとexemplarベースのインスタンススタイル制御を容易にする。複数のデータセットに対する広範囲な実験により、本手法は最先端の手法に比べて優れた多様性と同等の品質を達成できることを示した。コードは \url{https://github.com/tzt101/INADE.git} で利用できる。

関連論文リスト

A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow [94.90853153808987]
セマンティックセグメンテーション(Semantic segmentation)とセマンティックイメージ合成(Semantic image synthesis)は、視覚知覚と生成において代表的なタスクである。我々は、統一されたフレームワーク(SemFlow)を提案し、それらを2つの逆問題としてモデル化する。実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
論文参考訳（メタデータ） (2024-05-30T17:34:40Z)
Improving Denoising Diffusion Probabilistic Models via Exploiting Shared Representations [5.517338199249029]
SR-DDPMはノイズ拡散過程を逆転することで高品質な画像を生成する生成モデルのクラスである。多様なデータ分布の類似性を利用して、画像の品質を損なうことなく、複数のタスクにスケールできる。提案手法を標準画像データセット上で評価し、FIDとSSIMの指標で条件付きDDPMと条件付きDDPMの両方より優れていることを示す。
論文参考訳（メタデータ） (2023-11-27T22:30:26Z)
Variation-Aware Semantic Image Synthesis [5.232306238197685]
そこで本研究では,より高いクラス内変動,意味雑音,位置符号を有するVASIS(VASIS)を実現するための2つの簡単な手法を提案する。我々のモデルでは、より自然な画像が生成され、FIDやmIoUよりも若干良い結果が得られる。
論文参考訳（メタデータ） (2023-01-25T12:35:17Z)
ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。 StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文参考訳（メタデータ） (2022-12-14T15:22:13Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。 FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文参考訳（メタデータ） (2021-12-10T18:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。