論文の概要: Boosting Image Restoration via Priors from Pre-trained Models
- arxiv url: http://arxiv.org/abs/2403.06793v2
- Date: Tue, 19 Mar 2024 04:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:59:04.990816
- Title: Boosting Image Restoration via Priors from Pre-trained Models
- Title(参考訳): 事前訓練モデルによる画像復元の促進
- Authors: Xiaogang Xu, Shu Kong, Tao Hu, Zhe Liu, Hujun Bao,
- Abstract要約: 我々は、OSFによるターゲット復元ネットワークの復元結果を改善するために、Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習する。
PTG-RMは、低照度強化、デラリニング、デブロアリング、デノナイジングなど、様々なタスクにおける様々なモデルの復元性能を効果的に向上させる。
- 参考スコア(独自算出の注目度): 54.83907596825985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models with large-scale training data, such as CLIP and Stable Diffusion, have demonstrated remarkable performance in various high-level computer vision tasks such as image understanding and generation from language descriptions. Yet, their potential for low-level tasks such as image restoration remains relatively unexplored. In this paper, we explore such models to enhance image restoration. As off-the-shelf features (OSF) from pre-trained models do not directly serve image restoration, we propose to learn an additional lightweight module called Pre-Train-Guided Refinement Module (PTG-RM) to refine restoration results of a target restoration network with OSF. PTG-RM consists of two components, Pre-Train-Guided Spatial-Varying Enhancement (PTG-SVE), and Pre-Train-Guided Channel-Spatial Attention (PTG-CSA). PTG-SVE enables optimal short- and long-range neural operations, while PTG-CSA enhances spatial-channel attention for restoration-related learning. Extensive experiments demonstrate that PTG-RM, with its compact size ($<$1M parameters), effectively enhances restoration performance of various models across different tasks, including low-light enhancement, deraining, deblurring, and denoising.
- Abstract(参考訳): CLIPやStable Diffusionのような大規模トレーニングデータを持つ事前学習モデルは、画像理解や言語記述からの生成など、様々なハイレベルなコンピュータビジョンタスクにおいて顕著な性能を示している。
しかし、画像復元のような低レベルタスクの可能性は、いまだに未解明のままである。
本稿では,画像復元のためのモデルについて検討する。
事前学習したモデルからのオフ・ザ・シェルフ機能(OSF)は直接画像復元に役立たないため,OSFを用いたターゲット復元ネットワークの復元結果を改善するために,Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習することを提案する。
PTG-RMは、PTG-SVE(Pre-Train-Guided Space-Varying Enhancement)とPTG-CSA(Pre-Train-Guided Channel-Spatial Attention)の2つのコンポーネントから構成される。
PTG-SVEは最適な短距離と長距離の神経操作を可能にし、PTG-CSAは修復関連学習のための空間チャネルの注意を高める。
PTG-RMの小型化($1M)は, 低照度向上, デラライニング, 脱臭, 脱臭など, 各種モデルの復元性能を効果的に向上することを示した。
関連論文リスト
- GLMHA A Guided Low-rank Multi-Head Self-Attention for Efficient Image Restoration and Spectral Reconstruction [36.23508672036131]
本稿では,チャネルワイド・セルフアテンションを置き換えるために,インスタンス誘導型低ランクマルチヘッド・セルフアテンションを提案する。
提案したGLMHAに共通するのは、短い入力シーケンスと長い入力シーケンスの両方に対して計算利得を提供する能力である。
その結果,7.7ギガFLOPsの削減が達成され,最高の性能モデルの性能を維持するために必要なパラメータが370K削減された。
論文 参考訳(メタデータ) (2024-10-01T04:07:48Z) - Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method [7.487270862599671]
本稿では,bfReview Learning という一般画像復元モデルの学習パラダイムを提案する。
このアプローチは、いくつかの劣化したデータセット上のイメージ復元モデルのシーケンシャルなトレーニングと、レビューメカニズムの組み合わせから始まります。
コンシューマグレードのGPU上で4K解像度で画像の劣化を効率的に推論できる軽量な全目的画像復元ネットワークを設計する。
論文 参考訳(メタデータ) (2024-08-13T08:08:45Z) - Fast Unsupervised Tensor Restoration via Low-rank Deconvolution [0.09208007322096533]
低ランクデコンボリューション(LRD)は、重要な効率性と柔軟性を持つ新しい多次元表現モデルとして現れている。
我々は、この分析モデルがDeep Image Prior(DIP)やBlind-Spot Networks(BSN)といったディープラーニング(DL)フレームワークと競合できるかどうかを自問する。
論文 参考訳(メタデータ) (2024-06-15T16:04:49Z) - AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters [57.62742271140852]
AdaIRは、パフォーマンスを犠牲にすることなく、低コストで効率的なトレーニングを可能にする新しいフレームワークである。
AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。
論文 参考訳(メタデータ) (2024-04-17T15:31:06Z) - Lightweight Adaptive Feature De-drifting for Compressed Image
Classification [10.265991649449507]
高品質な画像で訓練された高レベルの視覚モデルは、圧縮された画像を扱う際に性能劣化に悩まされる。
ビジュアルアーティファクトを扱うために、さまざまな学習ベースのJPEGアーティファクト除去手法が提案されている。
本稿では,プレトレーニング済み画像分類モデルの性能向上を図るために,新しい軽量AFDモジュールを提案する。
論文 参考訳(メタデータ) (2024-01-03T13:03:44Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - REPNP: Plug-and-Play with Deep Reinforcement Learning Prior for Robust
Image Restoration [30.966005373669027]
本稿では、RePNPと呼ばれる新しい深層強化学習(DRL)フレームワークを提案する。
その結果,提案したRePNPは観測モデルに対して頑健であることがわかった。
RePNPと呼ばれるスキーム。
RePNPはモデルパラメータの少ないモデル偏差に基づくより良い結果を得る。
論文 参考訳(メタデータ) (2022-07-25T10:56:10Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Structure-Preserving Super Resolution with Gradient Guidance [87.79271975960764]
単一画像超解像(SISR)の構造
最近のGAN(Generative Adversarial Network)による研究は、SISRの開発を促進している。
しかし、復元された画像には常に望ましくない構造歪みがある。
論文 参考訳(メタデータ) (2020-03-29T17:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。