Fugu-MT 論文翻訳(概要): Training-Free Large Model Priors for Multiple-in-One Image Restoration

論文の概要: Training-Free Large Model Priors for Multiple-in-One Image Restoration

arxiv url: http://arxiv.org/abs/2407.13181v1
Date: Thu, 18 Jul 2024 05:40:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 16:42:04.747254
Title: Training-Free Large Model Priors for Multiple-in-One Image Restoration
Title（参考訳）: マルチインワン画像復元のための訓練不要大規模モデル
Authors: Xuanhua He, Lang Li, Yingying Wang, Hui Zheng, Ke Cao, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man Zhou,
Abstract要約: 大型モデル駆動画像復元フレームワーク(LMDIR) 我々のアーキテクチャは、グローバルな劣化知識を注入するクエリベースのプロンプトエンコーダ、分解対応トランスフォーマーブロックで構成されている。この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
参考スコア（独自算出の注目度）: 24.230376300759573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image restoration aims to reconstruct the latent clear images from their degraded versions. Despite the notable achievement, existing methods predominantly focus on handling specific degradation types and thus require specialized models, impeding real-world applications in dynamic degradation scenarios. To address this issue, we propose Large Model Driven Image Restoration framework (LMDIR), a novel multiple-in-one image restoration paradigm that leverages the generic priors from large multi-modal language models (MMLMs) and the pretrained diffusion models. In detail, LMDIR integrates three key prior knowledges: 1) global degradation knowledge from MMLMs, 2) scene-aware contextual descriptions generated by MMLMs, and 3) fine-grained high-quality reference images synthesized by diffusion models guided by MMLM descriptions. Standing on above priors, our architecture comprises a query-based prompt encoder, degradation-aware transformer block injecting global degradation knowledge, content-aware transformer block incorporating scene description, and reference-based transformer block incorporating fine-grained image priors. This design facilitates single-stage training paradigm to address various degradations while supporting both automatic and user-guided restoration. Extensive experiments demonstrate that our designed method outperforms state-of-the-art competitors on multiple evaluation benchmarks.
Abstract（参考訳）: 画像復元は、劣化した画像から潜伏した鮮明な画像を再構築することを目的としている。顕著な成果にもかかわらず、既存の手法は主に特定の劣化型を扱うことに重点を置いており、そのため、動的劣化シナリオにおける現実世界のアプリケーションを妨げる特別なモデルを必要としている。この問題に対処するために,大規模マルチモーダル言語モデル (MMLM) と事前訓練した拡散モデルからのジェネリック先行を生かした,新しいマルチインワン画像復元パラダイムであるLMDIR(Large Model Driven Image Restoration framework)を提案する。詳しくは、MDIRは3つの重要な事前知識を統合している。 1)MMLMからの世界的劣化知識 2)MMLMによるシーン対応の文脈記述、及び 3)MMLM記述で導かれる拡散モデルにより合成された微細な高画質参照画像。このアーキテクチャは,クエリベースのプロンプトエンコーダ,グローバルな劣化知識を注入する劣化認識トランスフォーマーブロック,シーン記述を取り入れたコンテンツ認識トランスフォーマーブロック,微細な画像先行を取り入れた参照ベーストランスフォーマーブロックから構成される。この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。大規模実験により,提案手法は,複数の評価ベンチマークにおいて,最先端の競合よりも優れた性能を示すことが示された。

関連論文リスト

MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration [62.929029990341796]
実世界のビデオは、ノイズ、圧縮アーティファクト、低照度歪みなどの複雑な劣化に悩まされることが多い。 3つの協調エージェントによる人間のプロの推論・処理手順を模倣したMoA-VRを提案する。具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
論文参考訳（メタデータ） (2025-10-09T17:42:51Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。 RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文参考訳（メタデータ） (2025-08-05T04:50:29Z)
UniLDiff: Unlocking the Power of Diffusion Priors for All-in-One Image Restoration [16.493990086330985]
UniLDiffは、デグレッションとディテールを意識したメカニズムで強化された統合フレームワークである。劣化認識機能融合(DAFF:Degradation-Aware Feature Fusion)を導入し,低品質機能を各段階に動的に注入する。また,Detail-Aware Expert Module (DAEM) をデコーダ内に設計し,テクスチャと微細構造の回復性を高める。
論文参考訳（メタデータ） (2025-07-31T16:02:00Z)
DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model [36.979833523678614]
オールインワン画像復元は、複数の画像劣化問題に対処することを目的としている。既存のアプローチは、画像復元を導くために、分解特異的モデルや粗粒度劣化プロンプトに依存している。我々は,新しいオールインワン画像復元フレームワークであるDPMambaIRを提案する。
論文参考訳（メタデータ） (2025-04-24T16:46:32Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。 PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文参考訳（メタデータ） (2025-03-14T04:33:59Z)
A Progressive Image Restoration Network for High-order Degradation Imaging in Remote Sensing [5.6223397629993626]
我々は高次劣化画像(HDI-PRNet)のための新しいプログレッシブ復元ネットワークを提案する。本手法は,合成画像と実際のリモートセンシング画像の両方において,優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-10T05:08:39Z)
FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文参考訳（メタデータ） (2024-12-02T12:08:40Z)
Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文参考訳（メタデータ） (2024-11-25T09:26:34Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)は、ノイズ、ぼかし、圧縮、悪天候など幅広い要因によって生じる劣化した観察から高品質な画像の復元を目指している。従来のIR法は、個々の劣化タイプを対象とすることで顕著な進歩を遂げてきたが、それらの特殊化は、しばしば一般化のコストがかかる。オールインワンのイメージ復元パラダイムが最近登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供している。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文参考訳（メタデータ） (2024-09-30T11:16:56Z)
Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-19T16:42:58Z)
Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method [7.487270862599671]
本稿では,bfReview Learning という一般画像復元モデルの学習パラダイムを提案する。このアプローチは、いくつかの劣化したデータセット上のイメージ復元モデルのシーケンシャルなトレーニングと、レビューメカニズムの組み合わせから始まります。コンシューマグレードのGPU上で4K解像度で画像の劣化を効率的に推論できる軽量な全目的画像復元ネットワークを設計する。
論文参考訳（メタデータ） (2024-08-13T08:08:45Z)
Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文参考訳（メタデータ） (2024-07-04T05:01:10Z)
Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文参考訳（メタデータ） (2024-04-03T23:20:40Z)
Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。 MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文参考訳（メタデータ） (2023-12-05T17:47:11Z)
Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。我々の手法は最先端技術と競争的に機能する。
論文参考訳（メタデータ） (2023-09-06T15:05:04Z)
PromptIR: Prompting for All-in-One Blind Image Restoration [64.02374293256001]
我々は、オールインワン画像復元のためのプロンプトIR(PromptIR)を提案する。本手法では, 劣化特異的情報をエンコードするプロンプトを用いて, 復元ネットワークを動的に案内する。 PromptIRは、軽量なプロンプトがほとんどない汎用的で効率的なプラグインモジュールを提供する。
論文参考訳（メタデータ） (2023-06-22T17:59:52Z)
Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。 MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2021-02-04T18:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。