Fugu-MT 論文翻訳(概要): SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis

論文の概要: SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis

arxiv url: http://arxiv.org/abs/2403.09638v2
Date: Tue, 16 Jul 2024 12:40:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 21:18:43.123726
Title: SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis
Title（参考訳）: SCP-Diff:拡散に基づくセマンティック画像合成のための空間カテゴリー結合
Authors: Huan-ang Gao, Mingju Gao, Jiaju Li, Wenyi Li, Rong Zhi, Hao Tang, Hao Zhao,
Abstract要約: SCP-Diff は SIS on Cityscapes, ADE20K and COCO-Stuff の新たな最先端の成果を設定し、Cityscapes の FID は 10.53 である。
参考スコア（独自算出の注目度）: 8.768077629120915
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Semantic image synthesis (SIS) shows good promises for sensor simulation. However, current best practices in this field, based on GANs, have not yet reached the desired level of quality. As latent diffusion models make significant strides in image generation, we are prompted to evaluate ControlNet, a notable method for its dense control capabilities. Our investigation uncovered two primary issues with its results: the presence of weird sub-structures within large semantic areas and the misalignment of content with the semantic mask. Through empirical study, we pinpointed the cause of these problems as a mismatch between the noised training data distribution and the standard normal prior applied at the inference stage. To address this challenge, we developed specific noise priors for SIS, encompassing spatial, categorical, and a novel spatial-categorical joint prior for inference. This approach, which we have named SCP-Diff, has set new state-of-the-art results in SIS on Cityscapes, ADE20K and COCO-Stuff, yielding a FID as low as 10.53 on Cityscapes. The code and models can be accessed via the project page.
Abstract（参考訳）: セマンティック画像合成(SIS)は、センサシミュレーションに良い可能性を示している。しかし、この分野の現在のベストプラクティスは、GANに基づいており、まだ望ましい品質レベルに達していません。遅延拡散モデルが画像生成において顕著な進歩を遂げる中、我々はその高密度制御能力の顕著な方法である制御ネットを評価するよう促される。調査の結果,大きなセマンティック領域に奇妙なサブ構造が存在すること,セマンティックマスクによるコンテンツ調整の誤り,という2つの大きな問題が明らかになった。実験的な研究を通じて,これらの問題の原因を,推測段階で適用される雑音付きトレーニングデータ分布と標準正規値とのミスマッチとして特定した。この課題に対処するために、推論に先立って、空間的、カテゴリー的、および新しい空間的カテゴリー的関節を含む、SISの特定のノイズ先行法を開発した。 SCP-Diffという名前のこのアプローチは、SIS on Cityscapes, ADE20K and COCO-Stuffにおいて、新しい最先端の成果を設定し、Cityscapesでは10.53という低いFIDが得られる。コードとモデルはプロジェクトページからアクセスすることができる。

関連論文リスト

Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。 KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文参考訳（メタデータ） (2025-10-23T07:12:26Z)
IS-Diff: Improving Diffusion-Based Inpainting with Better Initial Seed [38.60130168747451]
Initial Seed refined Diffusion Model (IS-Diff) は、分散種子を組み込んだ完全に訓練なしの手法である。我々は,CelebA-HQ,ImageNet,Places2データセットを用いて,標準的なタスクと大規模タスクの両方において,本手法の有効性を検証する。
論文参考訳（メタデータ） (2025-09-15T07:16:03Z)
Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models [3.5999252362400993]
構成生成における主要な問題は、空間的関係の不整合である。本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
論文参考訳（メタデータ） (2025-06-29T22:41:27Z)
UrbanCraft: Urban View Extrapolation via Hierarchical Sem-Geometric Priors [10.706273062956507]
都市景観の再現手法は、主に、訓練用カメラ軌道に近いビューを合成する補間ビュー合成設定に焦点を当てている。従来の手法では画像拡散によって最適化されていたが、テキストのあいまいさや大きな見えない視角を処理できなかった。我々は,階層的なセム幾何学的表現を付加した外挿ビュー合成問題を克服したUrbanCraftを設計する。
論文参考訳（メタデータ） (2025-05-29T13:28:04Z)
Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文参考訳（メタデータ） (2025-01-16T09:38:22Z)
Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2024-06-18T15:15:12Z)
3D Human Pose Analysis via Diffusion Synthesis [65.268245109828]
PADSは、逆問題フレームワーク内での一般的な3次元ポーズ解析に取り組むための、初めての拡散ベースのフレームワークである。その性能は異なるベンチマークで検証され、パイプラインの適応性と堅牢性を示している。
論文参考訳（メタデータ） (2024-01-17T02:59:34Z)
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文参考訳（メタデータ） (2023-12-20T08:05:57Z)
Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文参考訳（メタデータ） (2023-06-02T17:47:01Z)
Dual Stage Stylization Modulation for Domain Generalized Semantic Segmentation [39.35385886870209]
In the Adversarial Semantic Hallucination+ framework。本手法は,各画素に対する意味情報を活用することにより,画素単位の幻覚強度を適応的に調整する。提案手法の有効性を,公開されているセマンティックセグメンテーションベンチマークデータセットの総合的な実験により検証する。
論文参考訳（メタデータ） (2023-04-18T23:54:20Z)
Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文参考訳（メタデータ） (2022-12-19T12:44:25Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
IGAN: Inferent and Generative Adversarial Networks [0.0]
IGANは複雑な高次元データ分布における生成モデルと推論モデルの両方を学習する。画像と潜伏空間の両方で敵の戦略を書き換えることで、従来のGANフレームワークを推論で拡張する。
論文参考訳（メタデータ） (2021-09-27T21:48:35Z)
Recent Developments Combining Ensemble Smoother and Deep Generative Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文参考訳（メタデータ） (2020-05-08T21:32:42Z)
Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文参考訳（メタデータ） (2020-03-31T22:38:09Z)
Peeking into occluded joints: A novel framework for crowd pose estimation [88.56203133287865]
OPEC-NetはイメージガイドされたプログレッシブGCNモジュールで、推論の観点から見えない関節を推定する。 OCPoseは、隣接するインスタンス間の平均IoUに対して、最も複雑なOccluded Poseデータセットである。
論文参考訳（メタデータ） (2020-03-23T19:32:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。