論文の概要: SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2403.09638v2
- Date: Tue, 16 Jul 2024 12:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 21:18:43.123726
- Title: SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis
- Title(参考訳): SCP-Diff:拡散に基づくセマンティック画像合成のための空間カテゴリー結合
- Authors: Huan-ang Gao, Mingju Gao, Jiaju Li, Wenyi Li, Rong Zhi, Hao Tang, Hao Zhao,
- Abstract要約: SCP-Diff は SIS on Cityscapes, ADE20K and COCO-Stuff の新たな最先端の成果を設定し、Cityscapes の FID は 10.53 である。
- 参考スコア(独自算出の注目度): 8.768077629120915
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semantic image synthesis (SIS) shows good promises for sensor simulation. However, current best practices in this field, based on GANs, have not yet reached the desired level of quality. As latent diffusion models make significant strides in image generation, we are prompted to evaluate ControlNet, a notable method for its dense control capabilities. Our investigation uncovered two primary issues with its results: the presence of weird sub-structures within large semantic areas and the misalignment of content with the semantic mask. Through empirical study, we pinpointed the cause of these problems as a mismatch between the noised training data distribution and the standard normal prior applied at the inference stage. To address this challenge, we developed specific noise priors for SIS, encompassing spatial, categorical, and a novel spatial-categorical joint prior for inference. This approach, which we have named SCP-Diff, has set new state-of-the-art results in SIS on Cityscapes, ADE20K and COCO-Stuff, yielding a FID as low as 10.53 on Cityscapes. The code and models can be accessed via the project page.
- Abstract(参考訳): セマンティック画像合成(SIS)は、センサシミュレーションに良い可能性を示している。
しかし、この分野の現在のベストプラクティスは、GANに基づいており、まだ望ましい品質レベルに達していません。
遅延拡散モデルが画像生成において顕著な進歩を遂げる中、我々はその高密度制御能力の顕著な方法である制御ネットを評価するよう促される。
調査の結果,大きなセマンティック領域に奇妙なサブ構造が存在すること,セマンティックマスクによるコンテンツ調整の誤り,という2つの大きな問題が明らかになった。
実験的な研究を通じて,これらの問題の原因を,推測段階で適用される雑音付きトレーニングデータ分布と標準正規値とのミスマッチとして特定した。
この課題に対処するために、推論に先立って、空間的、カテゴリー的、および新しい空間的カテゴリー的関節を含む、SISの特定のノイズ先行法を開発した。
SCP-Diffという名前のこのアプローチは、SIS on Cityscapes, ADE20K and COCO-Stuffにおいて、新しい最先端の成果を設定し、Cityscapesでは10.53という低いFIDが得られる。
コードとモデルはプロジェクトページからアクセスすることができる。
関連論文リスト
- Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - 3D Human Pose Analysis via Diffusion Synthesis [65.268245109828]
PADSは、逆問題フレームワーク内での一般的な3次元ポーズ解析に取り組むための、初めての拡散ベースのフレームワークである。
その性能は異なるベンチマークで検証され、パイプラインの適応性と堅牢性を示している。
論文 参考訳(メタデータ) (2024-01-17T02:59:34Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Dual Stage Stylization Modulation for Domain Generalized Semantic
Segmentation [39.35385886870209]
In the Adversarial Semantic Hallucination+ framework。
本手法は,各画素に対する意味情報を活用することにより,画素単位の幻覚強度を適応的に調整する。
提案手法の有効性を,公開されているセマンティックセグメンテーションベンチマークデータセットの総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-04-18T23:54:20Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - IGAN: Inferent and Generative Adversarial Networks [0.0]
IGANは複雑な高次元データ分布における生成モデルと推論モデルの両方を学習する。
画像と潜伏空間の両方で敵の戦略を書き換えることで、従来のGANフレームワークを推論で拡張する。
論文 参考訳(メタデータ) (2021-09-27T21:48:35Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z) - Peeking into occluded joints: A novel framework for crowd pose
estimation [88.56203133287865]
OPEC-NetはイメージガイドされたプログレッシブGCNモジュールで、推論の観点から見えない関節を推定する。
OCPoseは、隣接するインスタンス間の平均IoUに対して、最も複雑なOccluded Poseデータセットである。
論文 参考訳(メタデータ) (2020-03-23T19:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。