Fugu-MT 論文翻訳(概要): Stochastic Conditional Diffusion Models for Semantic Image Synthesis

論文の概要: Stochastic Conditional Diffusion Models for Semantic Image Synthesis

arxiv url: http://arxiv.org/abs/2402.16506v2
Date: Tue, 27 Feb 2024 04:46:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 11:19:04.634881
Title: Stochastic Conditional Diffusion Models for Semantic Image Synthesis
Title（参考訳）: 意味画像合成のための確率的条件拡散モデル
Authors: Juyeon Ko, Inho Kong, Dogyun Park, Hyunwoo J. Kim
Abstract要約: セマンティック画像合成(英: Semantic Image synthesis, SIS)は、セマンティックマップ(ラベル)に対応する現実的な画像を生成するタスクである。雑音ラベル付きSISに適した新しい前処理と生成処理を特徴とする条件拡散モデル(SCDM)を提案する。提案手法は,広範囲な実験とベンチマークデータセットの分析により,高品質なサンプルを生成する。
参考スコア（独自算出の注目度）: 14.681885856543564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic image synthesis (SIS) is a task to generate realistic images corresponding to semantic maps (labels). It can be applied to diverse real-world practices such as photo editing or content creation. However, in real-world applications, SIS often encounters noisy user inputs. To address this, we propose Stochastic Conditional Diffusion Model (SCDM), which is a robust conditional diffusion model that features novel forward and generation processes tailored for SIS with noisy labels. It enhances robustness by stochastically perturbing the semantic label maps through Label Diffusion, which diffuses the labels with discrete diffusion. Through the diffusion of labels, the noisy and clean semantic maps become similar as the timestep increases, eventually becoming identical at $t=T$. This facilitates the generation of an image close to a clean image, enabling robust generation. Furthermore, we propose a class-wise noise schedule to differentially diffuse the labels depending on the class. We demonstrate that the proposed method generates high-quality samples through extensive experiments and analyses on benchmark datasets, including a novel experimental setup simulating human errors during real-world applications.
Abstract（参考訳）: セマンティック画像合成(英: Semantic image synthesis、SIS)は、セマンティックマップ(ラベル)に対応する現実的な画像を生成するタスクである。写真編集やコンテンツ作成など、さまざまな現実世界のプラクティスに適用することができる。しかし、現実世界のアプリケーションでは、SISはしばしばノイズの多いユーザ入力に遭遇する。そこで本研究では,雑音ラベル付きsisのための新しいフォワード・ジェネレーション過程を特徴とするロバストな条件拡散モデルである確率的条件拡散モデル(scdm)を提案する。これは、離散拡散でラベルを拡散するラベル拡散を通じて意味ラベルマップを確率的に摂動させることでロバスト性を高める。ラベルの拡散により、ノイズとクリーンなセマンティックマップは時間ステップが増加するにつれて類似し、最終的に$t=t$で同一になる。これにより、クリーン画像に近い画像の生成が容易になり、堅牢な生成が可能になる。さらに,クラスに応じてラベルを微分拡散するクラスワイドノイズスケジュールを提案する。提案手法は, 実世界のアプリケーションにおけるヒューマンエラーをシミュレーションする新しい実験装置を含む, ベンチマークデータセットの広範な実験と解析により, 高品質なサンプルを生成する。

関連論文リスト

Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文参考訳（メタデータ） (2025-10-01T18:00:56Z)
Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.816933208895843]
離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。 GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T10:42:13Z)
Label-Noise Robust Diffusion Models [18.82847557713331]
条件拡散モデルは、様々な生成タスクにおいて顕著な性能を示した。訓練には、条件付き入力でしばしばノイズを含む大規模なデータセット、すなわちノイズラベルが必要である。本稿では,雑音ラベル付き条件付き拡散モデルの学習のための遷移対応重み付きDenoising Score Matchingを提案する。
論文参考訳（メタデータ） (2024-02-27T14:00:34Z)
Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。 DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文参考訳（メタデータ） (2023-12-20T09:39:19Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。本稿では,生成モデルの観点からラベルノイズ問題を再構成する。我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文参考訳（メタデータ） (2023-05-31T03:01:36Z)
Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文参考訳（メタデータ） (2022-11-30T05:33:29Z)
Markup-to-Image Diffusion Models with Scheduled Sampling [111.30188533324954]
画像生成の最近の進歩に基づき,画像にマークアップを描画するためのデータ駆動型アプローチを提案する。このアプローチは拡散モデルに基づいており、デノナイジング操作のシーケンスを用いてデータの分布をパラメータ化する。数式(La)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットの実験を行った。
論文参考訳（メタデータ） (2022-10-11T04:56:12Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文参考訳（メタデータ） (2021-03-11T18:59:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。