論文の概要: SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2403.09638v2
- Date: Tue, 16 Jul 2024 12:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 21:18:43.123726
- Title: SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis
- Title(参考訳): SCP-Diff:拡散に基づくセマンティック画像合成のための空間カテゴリー結合
- Authors: Huan-ang Gao, Mingju Gao, Jiaju Li, Wenyi Li, Rong Zhi, Hao Tang, Hao Zhao,
- Abstract要約: SCP-Diff は SIS on Cityscapes, ADE20K and COCO-Stuff の新たな最先端の成果を設定し、Cityscapes の FID は 10.53 である。
- 参考スコア(独自算出の注目度): 8.768077629120915
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semantic image synthesis (SIS) shows good promises for sensor simulation. However, current best practices in this field, based on GANs, have not yet reached the desired level of quality. As latent diffusion models make significant strides in image generation, we are prompted to evaluate ControlNet, a notable method for its dense control capabilities. Our investigation uncovered two primary issues with its results: the presence of weird sub-structures within large semantic areas and the misalignment of content with the semantic mask. Through empirical study, we pinpointed the cause of these problems as a mismatch between the noised training data distribution and the standard normal prior applied at the inference stage. To address this challenge, we developed specific noise priors for SIS, encompassing spatial, categorical, and a novel spatial-categorical joint prior for inference. This approach, which we have named SCP-Diff, has set new state-of-the-art results in SIS on Cityscapes, ADE20K and COCO-Stuff, yielding a FID as low as 10.53 on Cityscapes. The code and models can be accessed via the project page.
- Abstract(参考訳): セマンティック画像合成(SIS)は、センサシミュレーションに良い可能性を示している。
しかし、この分野の現在のベストプラクティスは、GANに基づいており、まだ望ましい品質レベルに達していません。
遅延拡散モデルが画像生成において顕著な進歩を遂げる中、我々はその高密度制御能力の顕著な方法である制御ネットを評価するよう促される。
調査の結果,大きなセマンティック領域に奇妙なサブ構造が存在すること,セマンティックマスクによるコンテンツ調整の誤り,という2つの大きな問題が明らかになった。
実験的な研究を通じて,これらの問題の原因を,推測段階で適用される雑音付きトレーニングデータ分布と標準正規値とのミスマッチとして特定した。
この課題に対処するために、推論に先立って、空間的、カテゴリー的、および新しい空間的カテゴリー的関節を含む、SISの特定のノイズ先行法を開発した。
SCP-Diffという名前のこのアプローチは、SIS on Cityscapes, ADE20K and COCO-Stuffにおいて、新しい最先端の成果を設定し、Cityscapesでは10.53という低いFIDが得られる。
コードとモデルはプロジェクトページからアクセスすることができる。
関連論文リスト
- Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。
本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。
本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文 参考訳(メタデータ) (2025-01-16T09:38:22Z) - CC-Diff: Enhancing Contextual Coherence in Remote Sensing Image Synthesis [42.09199178897688]
本稿では,拡張コンテキストコヒーレンスを用いた拡散モデルに基づくRS画像生成手法であるCC-Diffを紹介する。
空間的相互依存を捉えるために,合成した前景のインスタンスに背景生成を条件付けるシーケンシャルパイプラインを提案する。
実験により、CC-Diffは視覚的忠実度、意味的精度、位置精度において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-11T15:30:06Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - 3D Human Pose Analysis via Diffusion Synthesis [65.268245109828]
PADSは、逆問題フレームワーク内での一般的な3次元ポーズ解析に取り組むための、初めての拡散ベースのフレームワークである。
その性能は異なるベンチマークで検証され、パイプラインの適応性と堅牢性を示している。
論文 参考訳(メタデータ) (2024-01-17T02:59:34Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z) - Peeking into occluded joints: A novel framework for crowd pose
estimation [88.56203133287865]
OPEC-NetはイメージガイドされたプログレッシブGCNモジュールで、推論の観点から見えない関節を推定する。
OCPoseは、隣接するインスタンス間の平均IoUに対して、最も複雑なOccluded Poseデータセットである。
論文 参考訳(メタデータ) (2020-03-23T19:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。