論文の概要: Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2312.02918v2
- Date: Wed, 20 Mar 2024 16:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:08:02.182080
- Title: Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration
- Title(参考訳): マルチモーダル・プロンプト知覚器:オールインワン画像復元のための適応性、一般化性、忠実性
- Authors: Yuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, Ran He,
- Abstract要約: MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
- 参考スコア(独自算出の注目度): 58.11518043688793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite substantial progress, all-in-one image restoration (IR) grapples with persistent challenges in handling intricate real-world degradations. This paper introduces MPerceiver: a novel multimodal prompt learning approach that harnesses Stable Diffusion (SD) priors to enhance adaptiveness, generalizability and fidelity for all-in-one image restoration. Specifically, we develop a dual-branch module to master two types of SD prompts: textual for holistic representation and visual for multiscale detail representation. Both prompts are dynamically adjusted by degradation predictions from the CLIP image encoder, enabling adaptive responses to diverse unknown degradations. Moreover, a plug-in detail refinement module improves restoration fidelity via direct encoder-to-decoder information transformation. To assess our method, MPerceiver is trained on 9 tasks for all-in-one IR and outperforms state-of-the-art task-specific methods across most tasks. Post multitask pre-training, MPerceiver attains a generalized representation in low-level vision, exhibiting remarkable zero-shot and few-shot capabilities in unseen tasks. Extensive experiments on 16 IR tasks underscore the superiority of MPerceiver in terms of adaptiveness, generalizability and fidelity.
- Abstract(参考訳): 大幅に進歩したにもかかわらず、オールインワン画像復元(IR)は複雑な現実世界の劣化に対処する上で永続的な課題を抱えている。
本稿では, 適応性, 一般化性, 忠実性を向上するために, 安定拡散(SD)に先立つ新しいマルチモーダル・プロンプト学習手法であるMPerceiverを紹介する。
具体的には,2種類のSDプロンプトをマスタするデュアルブランチモジュールを開発する。
どちらのプロンプトもCLIP画像エンコーダの劣化予測によって動的に調整され、様々な未知の劣化に対する適応応答が可能である。
さらに、プラグインディテールリファインメントモジュールは、直接エンコーダからデコーダへの情報変換による復元精度を向上させる。
提案手法を評価するため,MPerceiver は all-in-one IR の 9 つのタスクを訓練し,ほとんどのタスクにおいて最先端のタスク固有手法より優れる。
マルチタスクの事前トレーニング後、MPerceiverは低レベルの視覚において一般化された表現を獲得し、目に見えないタスクにおいて顕著なゼロショットと少数ショットの能力を示す。
16のIRタスクに関する大規模な実験は、適応性、一般化性、忠実性の点でMPerceiverの優位性を示している。
関連論文リスト
- LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Perceive-IR: Learning to Perceive Degradation Better for All-in-One Image Restoration [33.163161549726446]
Perceive-IRは、微細な画質制御を実現するために設計されたオールインワン画像復元装置である。
素早い学習の段階では、素早い学習を活用し、3段階の品質レベルを識別できるきめ細かい品質知覚器を得る。
修復段階では,修復プロセスをさらに促進するために,意味的誘導モジュールとコンパクトな特徴抽出を提案する。
論文 参考訳(メタデータ) (2024-08-28T17:58:54Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。
本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。
これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文 参考訳(メタデータ) (2023-12-08T13:36:01Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。