論文の概要: Universal Image Restoration Pre-training via Masked Degradation Classification
- arxiv url: http://arxiv.org/abs/2510.13282v1
- Date: Wed, 15 Oct 2025 08:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.570436
- Title: Universal Image Restoration Pre-training via Masked Degradation Classification
- Title(参考訳): マスク付き劣化分類によるユニバーサル画像復元事前訓練
- Authors: JiaKui Hu, Zhengjian Yao, Lujia Jin, Yinghao Chen, Yanye Lu,
- Abstract要約: Masked Degradation Classification Pre-Training Method (MaskDCPT) は入力画像における劣化型の分類を容易にする。
MaskDCPTはエンコーダと2つのデコーダを含み、エンコーダはマスクされた低品質の入力画像から特徴を抽出する。
MaskDCPTは畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方のパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 18.68152341523977
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study introduces a Masked Degradation Classification Pre-Training method (MaskDCPT), designed to facilitate the classification of degradation types in input images, leading to comprehensive image restoration pre-training. Unlike conventional pre-training methods, MaskDCPT uses the degradation type of the image as an extremely weak supervision, while simultaneously leveraging the image reconstruction to enhance performance and robustness. MaskDCPT includes an encoder and two decoders: the encoder extracts features from the masked low-quality input image. The classification decoder uses these features to identify the degradation type, whereas the reconstruction decoder aims to reconstruct a corresponding high-quality image. This design allows the pre-training to benefit from both masked image modeling and contrastive learning, resulting in a generalized representation suited for restoration tasks. Benefit from the straightforward yet potent MaskDCPT, the pre-trained encoder can be used to address universal image restoration and achieve outstanding performance. Implementing MaskDCPT significantly improves performance for both convolution neural networks (CNNs) and Transformers, with a minimum increase in PSNR of 3.77 dB in the 5D all-in-one restoration task and a 34.8% reduction in PIQE compared to baseline in real-world degradation scenarios. It also emergences strong generalization to previously unseen degradation types and levels. In addition, we curate and release the UIR-2.5M dataset, which includes 2.5 million paired restoration samples across 19 degradation types and over 200 degradation levels, incorporating both synthetic and real-world data. The dataset, source code, and models are available at https://github.com/MILab-PKU/MaskDCPT.
- Abstract(参考訳): 本研究では,入力画像の劣化型分類を容易にするMasked Degradation Classification Pre-Training法(MaskDCPT)を提案する。
従来の事前学習法とは異なり、MaskDCPTは画像の劣化タイプを極めて弱い監視手段として使用し、同時に画像再構成を活用して性能と堅牢性を高める。
MaskDCPTはエンコーダと2つのデコーダを含み、エンコーダはマスクされた低品質の入力画像から特徴を抽出する。
分類復号器は、これらの特徴を用いて劣化型を識別する一方、再構成復号器は、対応する高品質な画像の再構成を目的としている。
この設計により、事前学習はマスク付き画像モデリングとコントラスト学習の両方の利点を享受でき、その結果、復元作業に適した一般化された表現が得られる。
直感的で強力なMaskDCPTから恩恵を受けるため、トレーニング済みエンコーダは、普遍的な画像復元と優れた性能を達成するために使用できる。
MaskDCPTを実装することで、畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方のパフォーマンスが大幅に向上し、5Dオールインワン修復タスクではPSNRが3.77dB、実際の劣化シナリオではPIQEが34.8%低下する。
また、以前は見つからなかった分解タイプやレベルへの強力な一般化も出現する。
さらに、UIR-2.5Mデータセットをキュレートしてリリースし、19の劣化タイプと200以上の劣化レベルにわたる250万対の復元サンプルを含み、合成データと実世界のデータの両方を取り入れています。
データセット、ソースコード、モデルはhttps://github.com/MILab-PKU/MaskDCPTで入手できる。
関連論文リスト
- SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。
蒸留を用いて, 拡散復号器の性能を効率よく再現する。
これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文 参考訳(メタデータ) (2025-10-06T15:57:31Z) - Hierarchical Mask-Enhanced Dual Reconstruction Network for Few-Shot Fine-Grained Image Classification [7.4334395431083715]
階層型マスク強化デュアルリコンストラクションネットワーク(HMDRN)を提案する。
HMDRNは、異なるネットワーク階層からの補完的な視覚情報を活用する二重層機能再構成と融合モジュールを組み込んでいる。
3つの挑戦的なきめ細かいデータセットの実験は、HDRNが最先端の手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-25T09:15:59Z) - Universal Image Restoration Pre-training via Degradation Classification [4.616424949496203]
劣化分類事前訓練により、モデルが任意の画像復元事前訓練のために入力画像の劣化タイプを分類する方法を学ぶことができる。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方が性能改善を示し、10Dオールインワン修復タスクでは最大2.55dB、混合劣化シナリオでは6.53dBとなっている。
論文 参考訳(メタデータ) (2025-01-26T13:03:37Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Exploring Distortion Prior with Latent Diffusion Models for Remote Sensing Image Compression [9.742764207747697]
遅延拡散モデルに基づくリモートセンシング画像圧縮法(LDM-RSIC)を提案する。
第1段階では、自己エンコーダは、高品質な入力画像から予め学習する。
第2段階では、既存の学習ベース画像圧縮アルゴリズムの復号化画像に条件付LDMにより前者が生成される。
論文 参考訳(メタデータ) (2024-06-06T11:13:44Z) - Neural Image Compression Using Masked Sparse Visual Representation [17.229601298529825]
本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。
本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
論文 参考訳(メタデータ) (2023-09-20T21:59:23Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking [35.11620617064127]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-03-09T18:28:18Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。