Fugu-MT 論文翻訳(概要): Patched Denoising Diffusion Models For High-Resolution Image Synthesis

論文の概要: Patched Denoising Diffusion Models For High-Resolution Image Synthesis

arxiv url: http://arxiv.org/abs/2308.01316v1
Date: Wed, 2 Aug 2023 17:58:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 12:04:36.992359
Title: Patched Denoising Diffusion Models For High-Resolution Image Synthesis
Title（参考訳）: 高分解能画像合成のためのパッチドノイズ拡散モデル
Authors: Zheng Ding, Mengqi Zhang, Jiajun Wu, Zhuowen Tu
Abstract要約: 我々は,大規模画像の合成における境界アーチファクトを回避するために,新しい特徴コラージュ戦略を設計したアルゴリズム Patch-DM を命名した。 Patch-DMは,新たに収集した自然画像のデータセットを用いて高品質な画像合成結果を生成する。
参考スコア（独自算出の注目度）: 30.559744118225183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose an effective denoising diffusion model for generating high-resolution images (e.g., 1024$\times$512), trained on small-size image patches (e.g., 64$\times$64). We name our algorithm Patch-DM, in which a new feature collage strategy is designed to avoid the boundary artifact when synthesizing large-size images. Feature collage systematically crops and combines partial features of the neighboring patches to predict the features of a shifted image patch, allowing the seamless generation of the entire image due to the overlap in the patch feature space. Patch-DM produces high-quality image synthesis results on our newly collected dataset of nature images (1024$\times$512), as well as on standard benchmarks of smaller sizes (256$\times$256), including LSUN-Bedroom, LSUN-Church, and FFHQ. We compare our method with previous patch-based generation methods and achieve state-of-the-art FID scores on all four datasets. Further, Patch-DM also reduces memory complexity compared to the classic diffusion models.
Abstract（参考訳）: 小型画像パッチ(64$\times$64など)で訓練した高解像度画像(例えば1024$\times$512)を生成するための効果的な分極拡散モデルを提案する。我々は,大規模画像の合成における境界アーチファクトを回避するために,新しい特徴コラージュ戦略を設計したアルゴリズム Patch-DM を命名した。フィーチャーコラージュは、隣接するパッチの部分的な特徴を組み合わせて、シフトしたイメージパッチの特徴を予測し、パッチ特徴空間の重なりによる画像全体のシームレスな生成を可能にする。 Patch-DMは、新たに収集した自然画像のデータセット(1024$\times$512)と、LSUN-Bedroom、LSUN-Church、FFHQを含む小サイズの標準ベンチマーク(256$\times$256)で、高品質な画像合成結果を生成する。本手法は従来のパッチベース生成手法と比較し,4つのデータセットすべてにおいて最先端のfidスコアを得る。さらにpatch-dmは従来の拡散モデルに比べてメモリの複雑さを低減している。

関連論文リスト

Foreground-Aware Dataset Distillation via Dynamic Patch Selection [56.565143366562495]
コンテンツ適応方式でパッチ選択を向上する前景対応型データセット蒸留法を提案する。複数のベンチマーク実験により,提案手法は既存手法よりも蒸留性能を一貫して向上することが示された。
論文参考訳（メタデータ） (2026-01-06T05:44:02Z)
DPAR: Dynamic Patchification for Efficient Autoregressive Visual Generation [10.719563134726057]
本稿では,デコーダのみの自己回帰モデルであるDPARについて述べる。 DPAR は Imagenet 256 と 384 でそれぞれトークン数を 1.81x と 2.06x に削減し、トレーニングコストの最大40% FLOP を削減した。
論文参考訳（メタデータ） (2025-12-26T05:03:47Z)
Native-Resolution Image Synthesis [79.73854557930089]
本稿では、任意の解像度とアスペクト比で画像の合成を可能にする新しい生成モデリングパラダイムである、ネイティブ解像度画像合成を紹介する。単一のNiTモデルは、ImageNet-256x256と512x512ベンチマークの両方で最先端のパフォーマンスを同時に達成する。驚いたことに、先進的な大規模言語モデルで見られる堅牢なゼロショット機能と同様に、ImageNetでのみトレーニングされたNiTは、優れたゼロショット一般化性能を示している。
論文参考訳（メタデータ） (2025-06-03T17:57:33Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。 ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文参考訳（メタデータ） (2024-11-25T22:39:22Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
PatchScaler: An Efficient Patch-Independent Diffusion Model for Image Super-Resolution [44.345740602726345]
PatchScalerは、単一画像超解像のための効率的なパッチ非依存拡散パイプラインである。テクスチャは、共通参照テクスチャメモリから、ターゲットパッチのテクスチャ先行を適応的に検索する。本コードでは,定量評価と定性評価の両方において優れた性能を示し,推論を著しく高速化する。
論文参考訳（メタデータ） (2024-05-27T13:31:46Z)
Adaptive Patching for High-resolution Image Segmentation with Transformers [9.525013089622183]
注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。顕微鏡病理画像などの高解像度画像では、セグメンテーションで好まれる小さなパッチサイズを使用する場合、二次計算とメモリコストは注意に基づくモデルの使用を禁止している。我々はHPCのAdapative Mesh Refinement(AMR)法から着想を得た。
論文参考訳（メタデータ） (2024-04-15T12:06:00Z)
Memory Efficient Diffusion Probabilistic Models via Patch-based Generation [11.749564892273828]
拡散確率モデルは高品質で多様な画像を生成することに成功している。入力と出力が高解像度の画像である従来のモデルは、過剰なメモリ要求に悩まされている。本稿では,パッチ・バイ・パッチ・ベースで画像を生成する拡散確率モデルに対するパッチベースのアプローチを提案する。
論文参考訳（メタデータ） (2023-04-14T12:20:18Z)
Learned Distributed Image Compression with Multi-Scale Patch Matching in Feature Domai [62.88240343479615]
分散画像圧縮モデルのデコーダの側情報を完全に活用するためのマルチスケール特徴領域マッチング(MSFDPM)を提案する。 MSFDPMは、サイド情報特徴抽出器、マルチスケール機能領域パッチマッチングモジュール、マルチスケール機能融合ネットワークから構成される。マルチスケールの特徴領域におけるパッチマッチングは,画像領域におけるパッチマッチング手法と比較して圧縮率を約20%向上させる。
論文参考訳（メタデータ） (2022-09-06T14:06:46Z)
HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文参考訳（メタデータ） (2022-03-19T05:09:34Z)
PixelPyramids: Exact Inference Models from Lossless Image Pyramids [58.949070311990916]
Pixel-Pyramidsは、画像画素の関節分布を符号化するスケール特異的表現を用いたブロック自動回帰手法である。様々な画像データセット、特に高解像度データに対する密度推定の最先端結果が得られる。 CelebA-HQ 1024 x 1024 では,フローベースモデルの並列化よりもサンプリング速度が優れているにもかかわらず,密度推定値がベースラインの 44% に向上することが観察された。
論文参考訳（メタデータ） (2021-10-17T10:47:29Z)
High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文参考訳（メタデータ） (2021-05-13T17:56:07Z)
A Hierarchical Transformation-Discriminating Generative Model for Few Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文参考訳（メタデータ） (2021-04-29T17:49:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。