論文の概要: Patched Denoising Diffusion Models For High-Resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2308.01316v1
- Date: Wed, 2 Aug 2023 17:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:04:36.992359
- Title: Patched Denoising Diffusion Models For High-Resolution Image Synthesis
- Title(参考訳): 高分解能画像合成のためのパッチドノイズ拡散モデル
- Authors: Zheng Ding, Mengqi Zhang, Jiajun Wu, Zhuowen Tu
- Abstract要約: 我々は,大規模画像の合成における境界アーチファクトを回避するために,新しい特徴コラージュ戦略を設計したアルゴリズム Patch-DM を命名した。
Patch-DMは,新たに収集した自然画像のデータセットを用いて高品質な画像合成結果を生成する。
- 参考スコア(独自算出の注目度): 30.559744118225183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an effective denoising diffusion model for generating
high-resolution images (e.g., 1024$\times$512), trained on small-size image
patches (e.g., 64$\times$64). We name our algorithm Patch-DM, in which a new
feature collage strategy is designed to avoid the boundary artifact when
synthesizing large-size images. Feature collage systematically crops and
combines partial features of the neighboring patches to predict the features of
a shifted image patch, allowing the seamless generation of the entire image due
to the overlap in the patch feature space. Patch-DM produces high-quality image
synthesis results on our newly collected dataset of nature images
(1024$\times$512), as well as on standard benchmarks of smaller sizes
(256$\times$256), including LSUN-Bedroom, LSUN-Church, and FFHQ. We compare our
method with previous patch-based generation methods and achieve
state-of-the-art FID scores on all four datasets. Further, Patch-DM also
reduces memory complexity compared to the classic diffusion models.
- Abstract(参考訳): 小型画像パッチ(64$\times$64など)で訓練した高解像度画像(例えば1024$\times$512)を生成するための効果的な分極拡散モデルを提案する。
我々は,大規模画像の合成における境界アーチファクトを回避するために,新しい特徴コラージュ戦略を設計したアルゴリズム Patch-DM を命名した。
フィーチャーコラージュは、隣接するパッチの部分的な特徴を組み合わせて、シフトしたイメージパッチの特徴を予測し、パッチ特徴空間の重なりによる画像全体のシームレスな生成を可能にする。
Patch-DMは、新たに収集した自然画像のデータセット(1024$\times$512)と、LSUN-Bedroom、LSUN-Church、FFHQを含む小サイズの標準ベンチマーク(256$\times$256)で、高品質な画像合成結果を生成する。
本手法は従来のパッチベース生成手法と比較し,4つのデータセットすべてにおいて最先端のfidスコアを得る。
さらにpatch-dmは従来の拡散モデルに比べてメモリの複雑さを低減している。
関連論文リスト
- ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文 参考訳(メタデータ) (2024-11-25T22:39:22Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - PatchScaler: An Efficient Patch-Independent Diffusion Model for Image Super-Resolution [44.345740602726345]
PatchScalerは、単一画像超解像のための効率的なパッチ非依存拡散パイプラインである。
テクスチャは、共通参照テクスチャメモリから、ターゲットパッチのテクスチャ先行を適応的に検索する。
本コードでは,定量評価と定性評価の両方において優れた性能を示し,推論を著しく高速化する。
論文 参考訳(メタデータ) (2024-05-27T13:31:46Z) - Adaptive Patching for High-resolution Image Segmentation with Transformers [9.525013089622183]
注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。
トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。
顕微鏡病理画像などの高解像度画像では、セグメンテーションで好まれる小さなパッチサイズを使用する場合、二次計算とメモリコストは注意に基づくモデルの使用を禁止している。
我々はHPCのAdapative Mesh Refinement(AMR)法から着想を得た。
論文 参考訳(メタデータ) (2024-04-15T12:06:00Z) - Memory Efficient Diffusion Probabilistic Models via Patch-based
Generation [11.749564892273828]
拡散確率モデルは高品質で多様な画像を生成することに成功している。
入力と出力が高解像度の画像である従来のモデルは、過剰なメモリ要求に悩まされている。
本稿では,パッチ・バイ・パッチ・ベースで画像を生成する拡散確率モデルに対するパッチベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-14T12:20:18Z) - Learned Distributed Image Compression with Multi-Scale Patch Matching in
Feature Domai [62.88240343479615]
分散画像圧縮モデルのデコーダの側情報を完全に活用するためのマルチスケール特徴領域マッチング(MSFDPM)を提案する。
MSFDPMは、サイド情報特徴抽出器、マルチスケール機能領域パッチマッチングモジュール、マルチスケール機能融合ネットワークから構成される。
マルチスケールの特徴領域におけるパッチマッチングは,画像領域におけるパッチマッチング手法と比較して圧縮率を約20%向上させる。
論文 参考訳(メタデータ) (2022-09-06T14:06:46Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - PixelPyramids: Exact Inference Models from Lossless Image Pyramids [58.949070311990916]
Pixel-Pyramidsは、画像画素の関節分布を符号化するスケール特異的表現を用いたブロック自動回帰手法である。
様々な画像データセット、特に高解像度データに対する密度推定の最先端結果が得られる。
CelebA-HQ 1024 x 1024 では,フローベースモデルの並列化よりもサンプリング速度が優れているにもかかわらず,密度推定値がベースラインの 44% に向上することが観察された。
論文 参考訳(メタデータ) (2021-10-17T10:47:29Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。