論文の概要: Memory Efficient Diffusion Probabilistic Models via Patch-based
Generation
- arxiv url: http://arxiv.org/abs/2304.07087v1
- Date: Fri, 14 Apr 2023 12:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 13:47:36.526692
- Title: Memory Efficient Diffusion Probabilistic Models via Patch-based
Generation
- Title(参考訳): パッチベース生成によるメモリ効率のよい拡散確率モデル
- Authors: Shinei Arakawa, Hideki Tsunashima, Daichi Horita, Keitaro Tanaka,
Shigeo Morishima
- Abstract要約: 拡散確率モデルは高品質で多様な画像を生成することに成功している。
入力と出力が高解像度の画像である従来のモデルは、過剰なメモリ要求に悩まされている。
本稿では,パッチ・バイ・パッチ・ベースで画像を生成する拡散確率モデルに対するパッチベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.749564892273828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models have been successful in generating
high-quality and diverse images. However, traditional models, whose input and
output are high-resolution images, suffer from excessive memory requirements,
making them less practical for edge devices. Previous approaches for generative
adversarial networks proposed a patch-based method that uses positional
encoding and global content information. Nevertheless, designing a patch-based
approach for diffusion probabilistic models is non-trivial. In this paper, we
resent a diffusion probabilistic model that generates images on a
patch-by-patch basis. We propose two conditioning methods for a patch-based
generation. First, we propose position-wise conditioning using one-hot
representation to ensure patches are in proper positions. Second, we propose
Global Content Conditioning (GCC) to ensure patches have coherent content when
concatenated together. We evaluate our model qualitatively and quantitatively
on CelebA and LSUN bedroom datasets and demonstrate a moderate trade-off
between maximum memory consumption and generated image quality. Specifically,
when an entire image is divided into 2 x 2 patches, our proposed approach can
reduce the maximum memory consumption by half while maintaining comparable
image quality.
- Abstract(参考訳): 拡散確率モデルは高品質で多様な画像の生成に成功している。
しかし、入力と出力が高解像度画像である従来のモデルは過大なメモリ要件を抱えており、エッジデバイスでは実用性が低下している。
提案手法は, 位置符号化とグローバルコンテンツ情報を用いたパッチベースの手法である。
それにもかかわらず、拡散確率モデルに対するパッチベースのアプローチを設計することは非自明である。
本稿では,パッチバイパッチで画像を生成する拡散確率モデルについて再検討する。
パッチベース生成のための2つの条件付け手法を提案する。
まず,パッチが適切な位置にあることを保証するために,ワンホット表現を用いた位置対応条件を提案する。
次に,GCC(Global Content Conditioning)を提案する。
我々は,CelebA と LSUN の寝室データセットを定性的に定量的に評価し,最大メモリ消費と生成画像品質の中間的なトレードオフを示す。
具体的には,画像全体を2×2パッチに分割することで,画像品質を維持しながら最大メモリ消費量を半減させることができる。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Learning Image Priors through Patch-based Diffusion Models for Solving Inverse Problems [15.298502168256519]
拡散モデルは、基礎となるデータ分布から強力な画像前処理を学習し、それを使って逆問題を解決することができるが、トレーニングプロセスは計算コストが高く、大量のデータを必要とする。
本稿では,画像のパッチのみに基づく拡散モデルのトレーニングにより,画像全体に対する効率的なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:30:37Z) - HySim: An Efficient Hybrid Similarity Measure for Patch Matching in Image Inpainting [0.0]
画像領域の不足を埋めるためには、医療画像やリモートセンシングなどの様々な応用において重要な課題である。
本稿では,パッチベースの手法によるモデル駆動手法の改良を提案する。
我々のアプローチは、Hybrid similarity (HySim)を導入することで、標準の2乗差分(SSD)類似度尺度から逸脱する。
論文 参考訳(メタデータ) (2024-03-21T10:59:44Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z) - Perceptual Image Restoration with High-Quality Priori and Degradation
Learning [28.93489249639681]
本モデルは,復元画像と劣化画像の類似度を測定するのに有効であることを示す。
同時修復・拡張フレームワークは,実世界の複雑な分解型によく一般化する。
論文 参考訳(メタデータ) (2021-03-04T13:19:50Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。