論文の概要: Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and
Fidelity for All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2312.02918v1
- Date: Tue, 5 Dec 2023 17:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:58:46.695060
- Title: Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and
Fidelity for All-in-One Image Restoration
- Title(参考訳): マルチモーダル・プロンプト知覚器:オールインワン画像復元のための適応性、一般化性、忠実性
- Authors: Yuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, Ran He
- Abstract要約: MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高めるための新しいマルチモーダル・プロンプト学習手法である。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
- 参考スコア(独自算出の注目度): 62.3486362042921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite substantial progress, all-in-one image restoration (IR) grapples with
persistent challenges in handling intricate real-world degradations. This paper
introduces MPerceiver: a novel multimodal prompt learning approach that
harnesses Stable Diffusion (SD) priors to enhance adaptiveness,
generalizability and fidelity for all-in-one image restoration. Specifically,
we develop a dual-branch module to master two types of SD prompts: textual for
holistic representation and visual for multiscale detail representation. Both
prompts are dynamically adjusted by degradation predictions from the CLIP image
encoder, enabling adaptive responses to diverse unknown degradations. Moreover,
a plug-in detail refinement module improves restoration fidelity via direct
encoder-to-decoder information transformation. To assess our method, MPerceiver
is trained on 9 tasks for all-in-one IR and outperforms state-of-the-art
task-specific methods across most tasks. Post multitask pre-training,
MPerceiver attains a generalized representation in low-level vision, exhibiting
remarkable zero-shot and few-shot capabilities in unseen tasks. Extensive
experiments on 16 IR tasks and 26 benchmarks underscore the superiority of
MPerceiver in terms of adaptiveness, generalizability and fidelity.
- Abstract(参考訳): 大幅な進歩にもかかわらず、オールインワン画像復元(IR)は複雑な現実世界の劣化に対処する上で永続的な課題を抱える。
本稿では, 適応性, 一般化性, 忠実性を向上するために, 安定拡散(SD)に先立つ新しいマルチモーダル・プロンプト学習手法であるMPerceiverを紹介する。
具体的には,2種類のsdプロンプトをマスタするデュアルブランチモジュールを開発した。
どちらのプロンプトもCLIP画像エンコーダの劣化予測によって動的に調整され、様々な未知の劣化に対する適応応答が可能である。
さらに、プラグインディテールリファインメントモジュールは、直接エンコーダからデコーダへの情報変換による復元精度を向上させる。
提案手法を評価するため,MPerceiver は all-in-one IR の 9 つのタスクを訓練し,ほとんどのタスクにおいて最先端のタスク固有手法より優れる。
マルチタスクの事前トレーニング後、mperceiverは低レベルのビジョンで一般化された表現を達成し、目に見えないタスクで注目すべきゼロショットと少数ショットの能力を発揮する。
16のirタスクと26のベンチマークに関する広範な実験は、適応性、一般化性、忠実性の観点から、mperceiverの優位性を強調する。
関連論文リスト
- Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。
本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。
これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文 参考訳(メタデータ) (2023-12-08T13:36:01Z) - Multi-task Image Restoration Guided By Robust DINO Features [98.7455921708419]
DINOv2から抽出したロバストな特徴を利用した新しいマルチタスク画像復元手法であるmboxtextbfDINO-IRを導入する。
実験により,DINOv2の浅部特徴は低レベル画像の特徴が豊富であるが,深部特徴は劣化に敏感な頑健な意味表現を保証していることがわかった。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - DRM-IR: Task-Adaptive Deep Unfolding Network for All-In-One Image
Restoration [5.573836220587265]
本研究は,効率的な動的参照モデリングパラダイム(DRM-IR)を提案する。
DRM-IRはタスク適応型劣化モデリングとモデルベースの画像復元で構成されている。
複数のベンチマークデータセットの実験は、DRM-IRがAll-In-One IRで最先端のIRを達成することを示している。
論文 参考訳(メタデータ) (2023-07-15T02:42:19Z) - Gated Multi-Resolution Transfer Network for Burst Restoration and
Enhancement [75.25451566988565]
低画質の原画像のバーストから空間的精度の高い高画質画像を再構成する新しいGated Multi-Resolution Transfer Network (GMTNet)を提案する。
5つのデータセットに関する詳細な実験分析は、我々のアプローチを検証し、バースト超解像、バーストデノイング、低照度バーストエンハンスメントのための最先端技術を設定する。
論文 参考訳(メタデータ) (2023-04-13T17:54:00Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。