論文の概要: Universal Image Restoration Pre-training via Degradation Classification
- arxiv url: http://arxiv.org/abs/2501.15510v1
- Date: Sun, 26 Jan 2025 13:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:27.989626
- Title: Universal Image Restoration Pre-training via Degradation Classification
- Title(参考訳): 劣化分類によるユニバーサル画像復元事前学習
- Authors: JiaKui Hu, Lujia Jin, Zhengjian Yao, Yanye Lu,
- Abstract要約: 劣化分類事前訓練により、モデルが任意の画像復元事前訓練のために入力画像の劣化タイプを分類する方法を学ぶことができる。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方が性能改善を示し、10Dオールインワン修復タスクでは最大2.55dB、混合劣化シナリオでは6.53dBとなっている。
- 参考スコア(独自算出の注目度): 4.616424949496203
- License:
- Abstract: This paper proposes the Degradation Classification Pre-Training (DCPT), which enables models to learn how to classify the degradation type of input images for universal image restoration pre-training. Unlike the existing self-supervised pre-training methods, DCPT utilizes the degradation type of the input image as an extremely weak supervision, which can be effortlessly obtained, even intrinsic in all image restoration datasets. DCPT comprises two primary stages. Initially, image features are extracted from the encoder. Subsequently, a lightweight decoder, such as ResNet18, is leveraged to classify the degradation type of the input image solely based on the features extracted in the first stage, without utilizing the input image. The encoder is pre-trained with a straightforward yet potent DCPT, which is used to address universal image restoration and achieve outstanding performance. Following DCPT, both convolutional neural networks (CNNs) and transformers demonstrate performance improvements, with gains of up to 2.55 dB in the 10D all-in-one restoration task and 6.53 dB in the mixed degradation scenarios. Moreover, previous self-supervised pretraining methods, such as masked image modeling, discard the decoder after pre-training, while our DCPT utilizes the pre-trained parameters more effectively. This superiority arises from the degradation classifier acquired during DCPT, which facilitates transfer learning between models of identical architecture trained on diverse degradation types. Source code and models are available at https://github.com/MILab-PKU/dcpt.
- Abstract(参考訳): 本稿では,DCPT(Degradation Classification Pre-Training)を提案する。
既存の自己教師付き事前学習法とは異なり、DCPTは入力画像の劣化タイプを極めて弱い監視手段として利用しており、すべての画像復元データセットに固有のものであっても、無駄に得ることができる。
DCPTは2つの主要なステージから構成される。
当初、画像特徴はエンコーダから抽出される。
その後、ResNet18のような軽量デコーダを用いて、入力画像を利用することなく、第1段階で抽出された特徴のみに基づいて入力画像の劣化タイプを分類する。
エンコーダは直感的で強力なDCPTで事前訓練され、普遍的な画像復元と優れた性能を達成するために使用される。
DCPTの後、畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方のパフォーマンスが向上し、10Dオールインワン修復タスクでは最大2.55dB、混合劣化シナリオでは6.53dBとなった。
さらに,従来の自己教師付き事前学習手法,例えばマスク付き画像モデリングでは,事前訓練後にデコーダを破棄するが,DCPTでは事前訓練パラメータをより効果的に活用する。
この優位性は、DCPT中に得られた劣化分類器から生じ、多様な劣化型に基づいて訓練された同一アーキテクチャのモデル間での伝達学習を容易にする。
ソースコードとモデルはhttps://github.com/MILab-PKU/dcpt.comで入手できる。
関連論文リスト
- HAIR: Hypernetworks-based All-in-One Image Restoration [46.681872835394095]
HairはHypernetworksベースのオールインワンイメージ復元プラグイン・アンド・プレイ方式である。
入力画像に基づいてパラメータを生成し、モデルを動的に特定の劣化に適応させる。
シングルタスクとオールインワンの設定の両方において、既存の画像復元モデルの性能をプラグアンドプレイで大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-08-15T11:34:33Z) - Exploring Distortion Prior with Latent Diffusion Models for Remote Sensing Image Compression [9.742764207747697]
遅延拡散モデルに基づくリモートセンシング画像圧縮法(LDM-RSIC)を提案する。
第1段階では、自己エンコーダは、高品質な入力画像から予め学習する。
第2段階では、既存の学習ベース画像圧縮アルゴリズムの復号化画像に条件付LDMにより前者が生成される。
論文 参考訳(メタデータ) (2024-06-06T11:13:44Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - Controlling Vision-Language Models for Multi-Task Image Restoration [6.239038964461397]
我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 画像修復作業の高度化と高度化の両面において, 最先端の性能向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T09:10:16Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Modular Degradation Simulation and Restoration for Under-Display Camera [21.048590332029995]
ディスプレイ下カメラ(UDC)はフルスクリーンスマートフォンにエレガントなソリューションを提供する。
UDCが撮影した画像は、センサーがディスプレイの下に置かれているため、深刻な劣化に悩まされている。
UDC画像のシミュレーションにGAN(Generative Adversarial Network)フレームワークを用いたMPGNetと呼ばれるモジュラーネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T07:36:07Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Blind Image Restoration without Prior Knowledge [0.22940141855172028]
本稿では, 自己Normalization Side-Chain (SCNC) について述べる。
SCNCは既存のCNNトポロジに追加することができ、ネットワークの他の部分とエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2020-03-03T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。