Fugu-MT 論文翻訳(概要): LMD: Faster Image Reconstruction with Latent Masking Diffusion

論文の概要: LMD: Faster Image Reconstruction with Latent Masking Diffusion

arxiv url: http://arxiv.org/abs/2312.07971v1
Date: Wed, 13 Dec 2023 08:36:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 16:11:04.865906
Title: LMD: Faster Image Reconstruction with Latent Masking Diffusion
Title（参考訳）: LMD:潜在性マスキング拡散を用いた高速画像再構成
Authors: Zhiyuan Ma, zhihuan yu, Jianjun Li, Bowen Zhou
Abstract要約: Masked Autoencoders (MAEs) は、一般的な自己監督型視覚学習者として、下流タスクにおいて、よりシンプルで効果的な画像再構成と転送機能を示す。本稿では,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD を提案する。
参考スコア（独自算出の注目度）: 28.54828478259779
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a class of fruitful approaches, diffusion probabilistic models (DPMs) have shown excellent advantages in high-resolution image reconstruction. On the other hand, masked autoencoders (MAEs), as popular self-supervised vision learners, have demonstrated simpler and more effective image reconstruction and transfer capabilities on downstream tasks. However, they all require extremely high training costs, either due to inherent high temporal-dependence (i.e., excessively long diffusion steps) or due to artificially low spatial-dependence (i.e., human-formulated high mask ratio, such as 0.75). To the end, this paper presents LMD, a faster image reconstruction framework with latent masking diffusion. First, we propose to project and reconstruct images in latent space through a pre-trained variational autoencoder, which is theoretically more efficient than in the pixel-based space. Then, we combine the advantages of MAEs and DPMs to design a progressive masking diffusion model, which gradually increases the masking proportion by three different schedulers and reconstructs the latent features from simple to difficult, without sequentially performing denoising diffusion as in DPMs or using fixed high masking ratio as in MAEs, so as to alleviate the high training time-consumption predicament. Our approach allows for learning high-capacity models and accelerate their training (by 3x or more) and barely reduces the original accuracy. Inference speed in downstream tasks also significantly outperforms the previous approaches.
Abstract（参考訳）: 実りあるアプローチのクラスとして、拡散確率モデル(DPM)は高分解能画像再構成において優れた利点を示している。一方,マスク付きオートエンコーダ(maes)は,自己教師付き視覚学習者として人気であり,下流タスクにおける画像再構成と転送能力の簡易化を実証している。しかし、これらは全て、本質的に高い時間依存性(すなわち、過度に長い拡散ステップ)または人工的に低い空間依存性(すなわち、0.75のような人型の高いマスク比)のために、非常に高いトレーニングコストを必要とする。最後に,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD について述べる。まず,事前学習された変分オートエンコーダを用いて,潜在空間での画像を投影し,再構成することを提案する。次に,maes と dpms の利点を組み合わせることで,3つの異なるスケジューラによるマスキング比率を徐々に増加させ,dpms のように逐次的かつ高マスキング率で連続的にマスキング拡散を行うことなく,簡易かつ難易度から潜在特徴を再構築し,高いトレーニング時間を要するプレディショニングを緩和するプログレッシブマスキング拡散モデルを設計する。このアプローチにより、高容量モデルを学び、(3倍以上の)トレーニングを加速し、元の精度をわずかに削減できる。下流タスクの推論速度は、以前のアプローチよりも大幅に優れています。

関連論文リスト

MAN: Latent Diffusion Enhanced Multistage Anti-Noise Network for Efficient and High-Quality Low-Dose CT Image Denoising [8.912550844312177]
本稿では,高画質低線量CT画像復調作業のための遅延拡散増強型マルチステージアンチノイズネットワークMANについて紹介する。提案手法は、知覚的に最適化されたオートエンコーダを介して圧縮された潜在空間で動作する。本研究は,医用画像の先進的生成モデルに向けた実践的な道筋を示すものである。
論文参考訳（メタデータ） (2025-09-28T03:13:39Z)
LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter [52.93785843453579]
低品質(LQ)画像からのブラインド顔復元は、高忠実度画像再構成と顔認証の保存を必要とする課題である。 LAFRは,LQ画像の潜時分布とHQ画像の潜時分布を一致させる,新しいコードブックベースの潜時空間アダプタである。 FFHQデータセットのわずか0.9%での拡散の軽量な微調整は、最先端の手法に匹敵する結果を得るのに十分であることを示す。
論文参考訳（メタデータ） (2025-05-29T14:11:16Z)
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。 ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。 ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文参考訳（メタデータ） (2025-04-11T14:49:52Z)
TD-BFR: Truncated Diffusion Model for Efficient Blind Face Restoration [17.79398314291093]
効率的なブラインドフェース修復(TD-BFR)のための新しいトレンシド拡散モデルを提案する。 TD-BFRは、低解像度(LQ)の画像から始まり、サンプリング速度を向上させる革新的な切り抜きサンプリング手法を採用している。提案手法は,TD-BFRが現状の拡散型BFR法より平均4.75$times$で高速であることを示す。
論文参考訳（メタデータ） (2025-03-26T13:35:43Z)
Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.920423405957888]
RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文参考訳（メタデータ） (2025-03-25T09:56:21Z)
Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。 MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文参考訳（メタデータ） (2025-02-05T18:42:04Z)
AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation [12.564266865237343]
遅延拡散モデル(LDM)は、しばしば高分解能(HR)画像を直接生成する際に重要な構造歪みを経験する。生成プロセスの高速化を図り,HR画像の品質向上を目的とした注意・進歩型LDM(Attentive and Progressive LDM)を提案する。 AP-LDM は LDM の分解過程を, (i) 注意的訓練分解性脱ノイズ, (ii) 進行性高分解能脱ノイズの2段階に分解する。
論文参考訳（メタデータ） (2024-10-08T13:56:28Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [30.973473583364832]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-26T12:16:11Z)
One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。 OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文参考訳（メタデータ） (2024-03-12T05:06:07Z)
ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文参考訳（メタデータ） (2023-07-23T15:10:02Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文参考訳（メタデータ） (2022-11-27T16:27:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。