論文の概要: LMD: Faster Image Reconstruction with Latent Masking Diffusion
- arxiv url: http://arxiv.org/abs/2312.07971v1
- Date: Wed, 13 Dec 2023 08:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:11:04.865906
- Title: LMD: Faster Image Reconstruction with Latent Masking Diffusion
- Title(参考訳): LMD:潜在性マスキング拡散を用いた高速画像再構成
- Authors: Zhiyuan Ma, zhihuan yu, Jianjun Li, Bowen Zhou
- Abstract要約: Masked Autoencoders (MAEs) は、一般的な自己監督型視覚学習者として、下流タスクにおいて、よりシンプルで効果的な画像再構成と転送機能を示す。
本稿では,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD を提案する。
- 参考スコア(独自算出の注目度): 28.54828478259779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a class of fruitful approaches, diffusion probabilistic models (DPMs) have
shown excellent advantages in high-resolution image reconstruction. On the
other hand, masked autoencoders (MAEs), as popular self-supervised vision
learners, have demonstrated simpler and more effective image reconstruction and
transfer capabilities on downstream tasks. However, they all require extremely
high training costs, either due to inherent high temporal-dependence (i.e.,
excessively long diffusion steps) or due to artificially low spatial-dependence
(i.e., human-formulated high mask ratio, such as 0.75). To the end, this paper
presents LMD, a faster image reconstruction framework with latent masking
diffusion. First, we propose to project and reconstruct images in latent space
through a pre-trained variational autoencoder, which is theoretically more
efficient than in the pixel-based space. Then, we combine the advantages of
MAEs and DPMs to design a progressive masking diffusion model, which gradually
increases the masking proportion by three different schedulers and reconstructs
the latent features from simple to difficult, without sequentially performing
denoising diffusion as in DPMs or using fixed high masking ratio as in MAEs, so
as to alleviate the high training time-consumption predicament. Our approach
allows for learning high-capacity models and accelerate their training (by 3x
or more) and barely reduces the original accuracy. Inference speed in
downstream tasks also significantly outperforms the previous approaches.
- Abstract(参考訳): 実りあるアプローチのクラスとして、拡散確率モデル(DPM)は高分解能画像再構成において優れた利点を示している。
一方,マスク付きオートエンコーダ(maes)は,自己教師付き視覚学習者として人気であり,下流タスクにおける画像再構成と転送能力の簡易化を実証している。
しかし、これらは全て、本質的に高い時間依存性(すなわち、過度に長い拡散ステップ)または人工的に低い空間依存性(すなわち、0.75のような人型の高いマスク比)のために、非常に高いトレーニングコストを必要とする。
最後に,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD について述べる。
まず,事前学習された変分オートエンコーダを用いて,潜在空間での画像を投影し,再構成することを提案する。
次に,maes と dpms の利点を組み合わせることで,3つの異なるスケジューラによるマスキング比率を徐々に増加させ,dpms のように逐次的かつ高マスキング率で連続的にマスキング拡散を行うことなく,簡易かつ難易度から潜在特徴を再構築し,高いトレーニング時間を要するプレディショニングを緩和するプログレッシブマスキング拡散モデルを設計する。
このアプローチにより、高容量モデルを学び、(3倍以上の)トレーニングを加速し、元の精度をわずかに削減できる。
下流タスクの推論速度は、以前のアプローチよりも大幅に優れています。
関連論文リスト
- AddSR: Accelerating Diffusion-based Blind Super-Resolution with Adversarial Diffusion Distillation [40.46510885068325]
低分解能入力からの複雑な詳細で鮮明な高分解能画像の再構成における, 安定拡散ショーケースに基づくブラインド超解像法
本稿では, 蒸留とコントロールネットの両方のアイデアを取り入れたAddSRを設計し, 特に, 学生モデル出力の高頻度情報に限界的な追加時間コストで予測に基づく自己補正戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:07:38Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - Denoising Autoregressive Representation Learning [14.819256445166523]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Boosting Latent Diffusion with Flow Matching [23.043115108005708]
フローマッチング(FM)はより高速なトレーニングと推論を提供するが、合成の多様性は低い。
拡散モデルと畳み込みデコーダの間にFMを導入することで高分解能画像合成が実現できることを示す。
我々は,計算コストを最小限に抑えて,最先端の高解像度画像合成を10242ドルで実現した。
論文 参考訳(メタデータ) (2023-12-12T15:30:24Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。