論文の概要: LMD: Faster Image Reconstruction with Latent Masking Diffusion
- arxiv url: http://arxiv.org/abs/2312.07971v1
- Date: Wed, 13 Dec 2023 08:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:11:04.865906
- Title: LMD: Faster Image Reconstruction with Latent Masking Diffusion
- Title(参考訳): LMD:潜在性マスキング拡散を用いた高速画像再構成
- Authors: Zhiyuan Ma, zhihuan yu, Jianjun Li, Bowen Zhou
- Abstract要約: Masked Autoencoders (MAEs) は、一般的な自己監督型視覚学習者として、下流タスクにおいて、よりシンプルで効果的な画像再構成と転送機能を示す。
本稿では,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD を提案する。
- 参考スコア(独自算出の注目度): 28.54828478259779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a class of fruitful approaches, diffusion probabilistic models (DPMs) have
shown excellent advantages in high-resolution image reconstruction. On the
other hand, masked autoencoders (MAEs), as popular self-supervised vision
learners, have demonstrated simpler and more effective image reconstruction and
transfer capabilities on downstream tasks. However, they all require extremely
high training costs, either due to inherent high temporal-dependence (i.e.,
excessively long diffusion steps) or due to artificially low spatial-dependence
(i.e., human-formulated high mask ratio, such as 0.75). To the end, this paper
presents LMD, a faster image reconstruction framework with latent masking
diffusion. First, we propose to project and reconstruct images in latent space
through a pre-trained variational autoencoder, which is theoretically more
efficient than in the pixel-based space. Then, we combine the advantages of
MAEs and DPMs to design a progressive masking diffusion model, which gradually
increases the masking proportion by three different schedulers and reconstructs
the latent features from simple to difficult, without sequentially performing
denoising diffusion as in DPMs or using fixed high masking ratio as in MAEs, so
as to alleviate the high training time-consumption predicament. Our approach
allows for learning high-capacity models and accelerate their training (by 3x
or more) and barely reduces the original accuracy. Inference speed in
downstream tasks also significantly outperforms the previous approaches.
- Abstract(参考訳): 実りあるアプローチのクラスとして、拡散確率モデル(DPM)は高分解能画像再構成において優れた利点を示している。
一方,マスク付きオートエンコーダ(maes)は,自己教師付き視覚学習者として人気であり,下流タスクにおける画像再構成と転送能力の簡易化を実証している。
しかし、これらは全て、本質的に高い時間依存性(すなわち、過度に長い拡散ステップ)または人工的に低い空間依存性(すなわち、0.75のような人型の高いマスク比)のために、非常に高いトレーニングコストを必要とする。
最後に,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD について述べる。
まず,事前学習された変分オートエンコーダを用いて,潜在空間での画像を投影し,再構成することを提案する。
次に,maes と dpms の利点を組み合わせることで,3つの異なるスケジューラによるマスキング比率を徐々に増加させ,dpms のように逐次的かつ高マスキング率で連続的にマスキング拡散を行うことなく,簡易かつ難易度から潜在特徴を再構築し,高いトレーニング時間を要するプレディショニングを緩和するプログレッシブマスキング拡散モデルを設計する。
このアプローチにより、高容量モデルを学び、(3倍以上の)トレーニングを加速し、元の精度をわずかに削減できる。
下流タスクの推論速度は、以前のアプローチよりも大幅に優れています。
関連論文リスト
- AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation [12.564266865237343]
遅延拡散モデル(LDM)は、しばしば高分解能(HR)画像を直接生成する際に重要な構造歪みを経験する。
生成プロセスの高速化を図り,HR画像の品質向上を目的とした注意・進歩型LDM(Attentive and Progressive LDM)を提案する。
AP-LDM は LDM の分解過程を, (i) 注意的訓練分解性脱ノイズ, (ii) 進行性高分解能脱ノイズの2段階に分解する。
論文 参考訳(メタデータ) (2024-10-08T13:56:28Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [30.973473583364832]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。