論文の概要: Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2409.19403v1
- Date: Sat, 28 Sep 2024 16:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:38:55.216372
- Title: Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration
- Title(参考訳): マスクによる復元:ブラインドオールインワン画像復元のためのマスク画像モデリングの活用
- Authors: Chu-Jie Qin, Rui-Qi Wu, Zikun Liu, Xin Lin, Chun-Le Guo, Hyun Hee Park, Chongyi Li,
- Abstract要約: オールインワン画像復元は、複数の劣化タイプを1つのモデルで処理することを目的としている。
本稿では,オールインワンブラインド画像復元のための簡易パイプラインを提案する。
- 参考スコア(独自算出の注目度): 35.3663995646582
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: All-in-one image restoration aims to handle multiple degradation types using one model. This paper proposes a simple pipeline for all-in-one blind image restoration to Restore Anything with Masks (RAM). We focus on the image content by utilizing Mask Image Modeling to extract intrinsic image information rather than distinguishing degradation types like other methods. Our pipeline consists of two stages: masked image pre-training and fine-tuning with mask attribute conductance. We design a straightforward masking pre-training approach specifically tailored for all-in-one image restoration. This approach enhances networks to prioritize the extraction of image content priors from various degradations, resulting in a more balanced performance across different restoration tasks and achieving stronger overall results. To bridge the gap of input integrity while preserving learned image priors as much as possible, we selectively fine-tuned a small portion of the layers. Specifically, the importance of each layer is ranked by the proposed Mask Attribute Conductance (MAC), and the layers with higher contributions are selected for finetuning. Extensive experiments demonstrate that our method achieves state-of-the-art performance. Our code and model will be released at \href{https://github.com/Dragonisss/RAM}{https://github.com/Dragonisss/RAM}.
- Abstract(参考訳): オールインワン画像復元は、複数の劣化タイプを1つのモデルで処理することを目的としている。
本稿では,オールインワンブラインド画像復元のための簡単なパイプラインを提案する。
我々は,マスク画像モデリングを用いて,他の手法のような劣化型を区別するのではなく,本質的な画像情報を抽出することで,画像内容に焦点をあてる。
我々のパイプラインは、マスク付き画像事前学習とマスク属性コンダクタンスによる微調整の2段階からなる。
我々は、オールインワン画像復元に適した、簡単なマスキング事前訓練アプローチを設計する。
このアプローチは、さまざまな劣化から優先される画像コンテンツの抽出を優先するネットワークを強化し、異なる復元タスク間でよりバランスの取れたパフォーマンスを実現し、より強力な総合的な結果を得る。
学習した画像の先行情報を可能な限り保存しながら、入力整合性のギャップを埋めるために、我々は少数の層を選択的に微調整した。
具体的には,提案したMask Attribute Conductance(MAC)によって各レイヤの重要性をランク付けし,高いコントリビューションを持つレイヤを微調整のために選択する。
大規模な実験により,本手法が最先端の性能を達成できることが実証された。
私たちのコードとモデルは、 \href{https://github.com/Dragoniss/RAM}{https://github.com/Dragoniss/RAM} でリリースされます。
関連論文リスト
- Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Masked Autoencoders are Efficient Class Incremental Learners [64.90846899051164]
クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。
本稿では,CIL の学習に Masked Autoencoders (MAEs) を用いることを提案する。
論文 参考訳(メタデータ) (2023-08-24T02:49:30Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Semantic-guided Multi-Mask Image Harmonization [10.27974860479791]
セマンティック誘導型マルチマスク画像調和タスクを提案する。
本研究では,一連のオペレーターマスクを予測することにより,不調和な画像を編集する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-24T11:48:49Z) - GLaMa: Joint Spatial and Frequency Loss for General Image Inpainting [44.04779984090629]
画像インパインティングの目的は、残部からコンテキスト情報を用いて傷跡や損傷領域を復元することである。
本稿では、GLaMaと呼ばれるLaMa画像の塗布フレームワークに基づいて、この問題を簡易かつ汎用的に解決する手法を提案する。
提案したGLaMaは、より多くの種類のマスクを使用することで、様々な種類の行方不明情報をよりよくキャプチャできる。
論文 参考訳(メタデータ) (2022-05-15T02:18:59Z) - RePaint: Inpainting using Denoising Diffusion Probabilistic Models [161.74792336127345]
Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。
RePaint: A Denoising Probabilistic Model (DDPM) を用いた塗装手法を提案する。
本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。
論文 参考訳(メタデータ) (2022-01-24T18:40:15Z) - Exploiting Deep Generative Prior for Versatile Image Restoration and
Manipulation [181.08127307338654]
本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。
深層生成前駆体(DGP)は、色、パッチ、解像度、様々な劣化した画像の欠落したセマンティクスを復元するための説得力のある結果を提供する。
論文 参考訳(メタデータ) (2020-03-30T17:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。