論文の概要: Patched Denoising Diffusion Models For High-Resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2308.01316v1
- Date: Wed, 2 Aug 2023 17:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:04:36.992359
- Title: Patched Denoising Diffusion Models For High-Resolution Image Synthesis
- Title(参考訳): 高分解能画像合成のためのパッチドノイズ拡散モデル
- Authors: Zheng Ding, Mengqi Zhang, Jiajun Wu, Zhuowen Tu
- Abstract要約: 我々は,大規模画像の合成における境界アーチファクトを回避するために,新しい特徴コラージュ戦略を設計したアルゴリズム Patch-DM を命名した。
Patch-DMは,新たに収集した自然画像のデータセットを用いて高品質な画像合成結果を生成する。
- 参考スコア(独自算出の注目度): 30.559744118225183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an effective denoising diffusion model for generating
high-resolution images (e.g., 1024$\times$512), trained on small-size image
patches (e.g., 64$\times$64). We name our algorithm Patch-DM, in which a new
feature collage strategy is designed to avoid the boundary artifact when
synthesizing large-size images. Feature collage systematically crops and
combines partial features of the neighboring patches to predict the features of
a shifted image patch, allowing the seamless generation of the entire image due
to the overlap in the patch feature space. Patch-DM produces high-quality image
synthesis results on our newly collected dataset of nature images
(1024$\times$512), as well as on standard benchmarks of smaller sizes
(256$\times$256), including LSUN-Bedroom, LSUN-Church, and FFHQ. We compare our
method with previous patch-based generation methods and achieve
state-of-the-art FID scores on all four datasets. Further, Patch-DM also
reduces memory complexity compared to the classic diffusion models.
- Abstract(参考訳): 小型画像パッチ(64$\times$64など)で訓練した高解像度画像(例えば1024$\times$512)を生成するための効果的な分極拡散モデルを提案する。
我々は,大規模画像の合成における境界アーチファクトを回避するために,新しい特徴コラージュ戦略を設計したアルゴリズム Patch-DM を命名した。
フィーチャーコラージュは、隣接するパッチの部分的な特徴を組み合わせて、シフトしたイメージパッチの特徴を予測し、パッチ特徴空間の重なりによる画像全体のシームレスな生成を可能にする。
Patch-DMは、新たに収集した自然画像のデータセット(1024$\times$512)と、LSUN-Bedroom、LSUN-Church、FFHQを含む小サイズの標準ベンチマーク(256$\times$256)で、高品質な画像合成結果を生成する。
本手法は従来のパッチベース生成手法と比較し,4つのデータセットすべてにおいて最先端のfidスコアを得る。
さらにpatch-dmは従来の拡散モデルに比べてメモリの複雑さを低減している。
関連論文リスト
- Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer [36.715376148053785]
本研究では,推論プロセス中にメモリオーバーヘッドを調整する一方向ブロックアテンション機構を提案する。
このモジュール上に構築したDiT構造をアップサンプリングし、無限超解像モデルを開発する。
我々のモデルは, マシンと人両方の評価において, 超高解像度画像を生成するためにSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-05-07T13:35:58Z) - Adaptive Patching for High-resolution Image Segmentation with Transformers [9.525013089622183]
注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。
トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。
顕微鏡病理画像などの高解像度画像では、セグメンテーションで好まれる小さなパッチサイズを使用する場合、二次計算とメモリコストは注意に基づくモデルの使用を禁止している。
我々はHPCのAdapative Mesh Refinement(AMR)法から着想を得た。
論文 参考訳(メタデータ) (2024-04-15T12:06:00Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Generating Infinite-Size Textures using GANs with Patch-by-Patch
Paradigm [1.0878040851638]
GAN(Generative Adversarial Networks)を用いた無限サイズのテクスチャ画像生成手法を提案する。
提案手法は,単一のテクスチャ画像上にGANモデルをトレーニングし,局所的に相関し,より大きな画像を形成するためにシームレスに生成できる比較的小さなパッチを生成する。
トレーニングされたモデルは、局所的なテクスチャ構造を学び、任意のサイズの画像を生成すると同時に、一貫性と多様性を維持します。
論文 参考訳(メタデータ) (2023-09-05T15:57:23Z) - Memory Efficient Diffusion Probabilistic Models via Patch-based
Generation [11.749564892273828]
拡散確率モデルは高品質で多様な画像を生成することに成功している。
入力と出力が高解像度の画像である従来のモデルは、過剰なメモリ要求に悩まされている。
本稿では,パッチ・バイ・パッチ・ベースで画像を生成する拡散確率モデルに対するパッチベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-14T12:20:18Z) - Learned Distributed Image Compression with Multi-Scale Patch Matching in
Feature Domai [62.88240343479615]
分散画像圧縮モデルのデコーダの側情報を完全に活用するためのマルチスケール特徴領域マッチング(MSFDPM)を提案する。
MSFDPMは、サイド情報特徴抽出器、マルチスケール機能領域パッチマッチングモジュール、マルチスケール機能融合ネットワークから構成される。
マルチスケールの特徴領域におけるパッチマッチングは,画像領域におけるパッチマッチング手法と比較して圧縮率を約20%向上させる。
論文 参考訳(メタデータ) (2022-09-06T14:06:46Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - PixelPyramids: Exact Inference Models from Lossless Image Pyramids [58.949070311990916]
Pixel-Pyramidsは、画像画素の関節分布を符号化するスケール特異的表現を用いたブロック自動回帰手法である。
様々な画像データセット、特に高解像度データに対する密度推定の最先端結果が得られる。
CelebA-HQ 1024 x 1024 では,フローベースモデルの並列化よりもサンプリング速度が優れているにもかかわらず,密度推定値がベースラインの 44% に向上することが観察された。
論文 参考訳(メタデータ) (2021-10-17T10:47:29Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。