論文の概要: ConStyle v2: A Strong Prompter for All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2406.18242v1
- Date: Wed, 26 Jun 2024 10:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:49:09.614899
- Title: ConStyle v2: A Strong Prompter for All-in-One Image Restoration
- Title(参考訳): ConStyle v2:オールインワン画像復元のための強力なプロンプタ
- Authors: Dongqi Fan, Junhao Zhang, Liang Chang,
- Abstract要約: 本稿では,U-Netイメージ復元モデルのための強力なプラグアンドプレイプロンプトであるConStyle v2を紹介する。
実験によると、ConStyle v2は任意のU-Netスタイルの画像復元モデルをオールインワンの画像復元モデルに拡張できる。
- 参考スコア(独自算出の注目度): 5.693207891187567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces ConStyle v2, a strong plug-and-play prompter designed to output clean visual prompts and assist U-Net Image Restoration models in handling multiple degradations. The joint training process of IRConStyle, an Image Restoration framework consisting of ConStyle and a general restoration network, is divided into two stages: first, pre-training ConStyle alone, and then freezing its weights to guide the training of the general restoration network. Three improvements are proposed in the pre-training stage to train ConStyle: unsupervised pre-training, adding a pretext task (i.e. classification), and adopting knowledge distillation. Without bells and whistles, we can get ConStyle v2, a strong prompter for all-in-one Image Restoration, in less than two GPU days and doesn't require any fine-tuning. Extensive experiments on Restormer (transformer-based), NAFNet (CNN-based), MAXIM-1S (MLP-based), and a vanilla CNN network demonstrate that ConStyle v2 can enhance any U-Net style Image Restoration models to all-in-one Image Restoration models. Furthermore, models guided by the well-trained ConStyle v2 exhibit superior performance in some specific degradation compared to ConStyle.
- Abstract(参考訳): 本稿では,クリーンな視覚的プロンプトを出力し,U-Net画像復元モデルを支援する強力なプラグアンドプレイプロンプトであるConStyle v2を紹介する。
ConStyleと一般的な修復ネットワークからなる画像復元フレームワークであるIRConStyleの合同トレーニングプロセスは、まず、事前トレーニングのConStyle単独と、その重量を凍結して一般的な修復ネットワークのトレーニングをガイドする2つの段階に分けられる。
事前訓練の段階では、教師なしの事前訓練、プレテキストタスクの追加(分類)、知識蒸留の導入の3つの改善が提案されている。
ベルとホイッスルがなければ、オールインワン画像復元の強力なプロンプトであるConStyle v2を2日以内のGPUで入手でき、微調整も不要です。
Restormer(トランスフォーマーベース)、NAFNet(CNNベース)、MAXIM-1S(MLPベース)、バニラCNNネットワークに関する大規模な実験により、ConStyle v2が任意のU-Netスタイルの画像復元モデルをオールインワン画像復元モデルに拡張できることが証明された。
さらに、よく訓練されたConStyle v2でガイドされたモデルは、ConStyleと比較して特定の劣化において優れた性能を示す。
関連論文リスト
- Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method [7.487270862599671]
本稿では,bfReview Learning という一般画像復元モデルの学習パラダイムを提案する。
このアプローチは、いくつかの劣化したデータセット上のイメージ復元モデルのシーケンシャルなトレーニングと、レビューメカニズムの組み合わせから始まります。
コンシューマグレードのGPU上で4K解像度で画像の劣化を効率的に推論できる軽量な全目的画像復元ネットワークを設計する。
論文 参考訳(メタデータ) (2024-08-13T08:08:45Z) - MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。
これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文 参考訳(メタデータ) (2024-04-25T13:51:38Z) - MoreStyle: Relax Low-frequency Constraint of Fourier-based Image Reconstruction in Generalizable Medical Image Segmentation [53.24011398381715]
MoreStyleと呼ばれるデータ拡張のためのPlug-and-Playモジュールを紹介します。
MoreStyleは、フーリエ空間の低周波制約を緩和することで、イメージスタイルを多様化する。
敵対的学習の助けを借りて、MoreStyleは潜在機能の中で最も複雑なスタイルの組み合わせを指差している。
論文 参考訳(メタデータ) (2024-03-18T11:38:47Z) - IRConStyle: Image Restoration Framework Using Contrastive Learning and
Style Transfer [5.361977985410345]
我々は、任意のU-Net構造ネットワークに効率的に統合できる textbfConStyle と呼ばれる、画像復元のための新しいモジュールを提案する。
我々は,デノナイジング,デラミニング,デヘイジングなど,様々な画像修復作業について広範囲にわたる実験を行った。
19のベンチマークの結果は、ConStyleが任意のU-Netベースのネットワークと統合でき、性能を大幅に向上できることを示している。
論文 参考訳(メタデータ) (2024-02-24T10:52:50Z) - InstructIR: High-Quality Image Restoration Following Human Instructions [61.1546287323136]
本稿では,人間の手書きによる画像復元モデルを導出する手法を提案する。
InstructIRという手法は、いくつかの修復作業において最先端の結果を得る。
論文 参考訳(メタデータ) (2024-01-29T18:53:33Z) - Controlling Vision-Language Models for Multi-Task Image Restoration [6.239038964461397]
我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 画像修復作業の高度化と高度化の両面において, 最先端の性能向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T09:10:16Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - PromptIR: Prompting for All-in-One Blind Image Restoration [64.02374293256001]
我々は、オールインワン画像復元のためのプロンプトIR(PromptIR)を提案する。
本手法では, 劣化特異的情報をエンコードするプロンプトを用いて, 復元ネットワークを動的に案内する。
PromptIRは、軽量なプロンプトがほとんどない汎用的で効率的なプラグインモジュールを提供する。
論文 参考訳(メタデータ) (2023-06-22T17:59:52Z) - Third Time's the Charm? Image and Video Editing with StyleGAN3 [70.36056009463738]
StyleGANは間違いなく最も興味深くよく研究された生成モデルの一つである。
本稿では、最近のStyleGAN3アーキテクチャについて検討し、それ以前のアーキテクチャと比較し、その独特な利点と欠点について検討する。
論文 参考訳(メタデータ) (2022-01-31T18:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。