Fugu-MT 論文翻訳(概要): Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration

論文の概要: Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration

arxiv url: http://arxiv.org/abs/2312.02918v1
Date: Tue, 5 Dec 2023 17:47:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:58:46.695060
Title: Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration
Title（参考訳）: マルチモーダル・プロンプト知覚器:オールインワン画像復元のための適応性、一般化性、忠実性
Authors: Yuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, Ran He
Abstract要約: MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高めるための新しいマルチモーダル・プロンプト学習手法である。 MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
参考スコア（独自算出の注目度）: 62.3486362042921
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite substantial progress, all-in-one image restoration (IR) grapples with persistent challenges in handling intricate real-world degradations. This paper introduces MPerceiver: a novel multimodal prompt learning approach that harnesses Stable Diffusion (SD) priors to enhance adaptiveness, generalizability and fidelity for all-in-one image restoration. Specifically, we develop a dual-branch module to master two types of SD prompts: textual for holistic representation and visual for multiscale detail representation. Both prompts are dynamically adjusted by degradation predictions from the CLIP image encoder, enabling adaptive responses to diverse unknown degradations. Moreover, a plug-in detail refinement module improves restoration fidelity via direct encoder-to-decoder information transformation. To assess our method, MPerceiver is trained on 9 tasks for all-in-one IR and outperforms state-of-the-art task-specific methods across most tasks. Post multitask pre-training, MPerceiver attains a generalized representation in low-level vision, exhibiting remarkable zero-shot and few-shot capabilities in unseen tasks. Extensive experiments on 16 IR tasks and 26 benchmarks underscore the superiority of MPerceiver in terms of adaptiveness, generalizability and fidelity.
Abstract（参考訳）: 大幅な進歩にもかかわらず、オールインワン画像復元(IR)は複雑な現実世界の劣化に対処する上で永続的な課題を抱える。本稿では, 適応性, 一般化性, 忠実性を向上するために, 安定拡散(SD)に先立つ新しいマルチモーダル・プロンプト学習手法であるMPerceiverを紹介する。具体的には,2種類のsdプロンプトをマスタするデュアルブランチモジュールを開発した。どちらのプロンプトもCLIP画像エンコーダの劣化予測によって動的に調整され、様々な未知の劣化に対する適応応答が可能である。さらに、プラグインディテールリファインメントモジュールは、直接エンコーダからデコーダへの情報変換による復元精度を向上させる。提案手法を評価するため,MPerceiver は all-in-one IR の 9 つのタスクを訓練し,ほとんどのタスクにおいて最先端のタスク固有手法より優れる。マルチタスクの事前トレーニング後、mperceiverは低レベルのビジョンで一般化された表現を達成し、目に見えないタスクで注目すべきゼロショットと少数ショットの能力を発揮する。 16のirタスクと26のベンチマークに関する広範な実験は、適応性、一般化性、忠実性の観点から、mperceiverの優位性を強調する。

関連論文リスト

Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。 UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-09T06:42:49Z)
Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文参考訳（メタデータ） (2025-04-14T08:24:57Z)
UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文参考訳（メタデータ） (2025-01-22T08:06:48Z)
LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。 LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2024-10-20T13:00:24Z)
Perceive-IR: Learning to Perceive Degradation Better for All-in-One Image Restoration [33.163161549726446]
Perceive-IRは、微細な画質制御を実現するために設計されたオールインワン画像復元装置である。素早い学習の段階では、素早い学習を活用し、3段階の品質レベルを識別できるきめ細かい品質知覚器を得る。修復段階では,修復プロセスをさらに促進するために,意味的誘導モジュールとコンパクトな特徴抽出を提案する。
論文参考訳（メタデータ） (2024-08-28T17:58:54Z)
Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文参考訳（メタデータ） (2024-07-10T04:06:39Z)
LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文参考訳（メタデータ） (2024-07-09T10:15:31Z)
Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。 We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文参考訳（メタデータ） (2024-01-24T04:25:12Z)
Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文参考訳（メタデータ） (2023-12-08T13:36:01Z)
Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文参考訳（メタデータ） (2023-12-04T06:59:55Z)
Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。我々の手法は最先端技術と競争的に機能する。
論文参考訳（メタデータ） (2023-09-06T15:05:04Z)
Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。 i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文参考訳（メタデータ） (2021-06-27T15:01:30Z)
Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。 MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2021-02-04T18:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。