論文の概要: Leveraging Multimodal Large Language Models for All-in-One Image Restoration via a Mixture of Frequency Experts
- arxiv url: http://arxiv.org/abs/2605.11444v2
- Date: Wed, 13 May 2026 03:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.884013
- Title: Leveraging Multimodal Large Language Models for All-in-One Image Restoration via a Mixture of Frequency Experts
- Title(参考訳): 周波数エキスパートの混合によるオールインワン画像復元のためのマルチモーダル大言語モデルの活用
- Authors: Eunho Lee, Rei Kawakami, Youngbae Hwang,
- Abstract要約: オールインワン画像復元は、多様な未知の劣化によって影響を受ける入力からクリーン画像の復元を目指している。
近年の手法は, 修復過程を導くために, 劣化特性を同定することによって, 高い性能を示した。
マルチモーダル埋め込みをガイダンスとして利用するマルチモーダル大言語モデル(MLLM)誘導画像復元フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.395990800489828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All-in-one image restoration seeks to recover clean images from inputs affected by diverse and unknown degradations using a unified framework. Recent methods have shown strong performance by identifying degradation characteristics to guide the restoration process. However, many of them treat degradations as discrete categories, which limits their ability to model the continuous relational structure that arises in composite degradations. To address this issue, we propose a multimodal large language model (MLLM)-guided image restoration framework that exploits multimodal embeddings as guidance for low-level restoration. Specifically, MLLM-derived features are injected into an encoder-decoder architecture through an MLLM-guided fusion block (MGFB) to enhance degradation-aware representations. In addition, we incorporate a mixture-of-frequency-experts (MoFE) module that adaptively combines frequency experts using MLLM-guided contextual cues. To further improve expert routing, we design an MLLM-guided router with a relational alignment loss that encourages routing patterns consistent with the embedding-space relationships of degraded inputs. Extensive experiments on multiple benchmarks show that the proposed method achieves strong performance across diverse restoration settings and establishes a new state of the art on the challenging CDD11 dataset, outperforming previous methods by up to 1.35 dB.
- Abstract(参考訳): All-in-one画像復元は、統一されたフレームワークを使用して、多種多様な未知の劣化に影響された入力からクリーンなイメージを復元することを目指している。
近年の手法は, 修復過程を導くために, 劣化特性を同定することによって, 高い性能を示した。
しかし、それらの多くは分解を離散的なカテゴリとして扱い、複合的な分解で生じる連続的な関係構造をモデル化する能力を制限する。
この問題に対処するために,低レベル復元のためのガイダンスとしてマルチモーダル埋め込みを利用したマルチモーダル大言語モデル(MLLM)誘導画像復元フレームワークを提案する。
具体的には、MLLM誘導核融合ブロック(MGFB)を介してエンコーダ・デコーダアーキテクチャにMLLM由来の機能を注入し、劣化認識表現を強化する。
さらに、MLLM誘導コンテキストキューを用いて周波数エキスパートを適応的に組み合わせたMix-of- frequency-experts (MoFE)モジュールを組み込んだ。
専門家のルーティングをさらに改善するため、劣化した入力の埋め込み空間関係に整合したルーティングパターンを促進するリレーショナルアライメント損失を持つMLLM誘導ルータを設計する。
複数のベンチマークでの大規模な実験により,提案手法は多様な復元条件で高い性能を達成し,挑戦的なCDD11データセット上で新たな最先端技術を確立し,従来の手法を最大1.35dBで上回る結果を得た。
関連論文リスト
- ClusIR: Towards Cluster-Guided All-in-One Image Restoration [72.16989784735796]
ClusIRは、統一されたフレームワーク内でさまざまな劣化から高品質なイメージを復元することを目的としている。
ClusIRは、確率的クラスタ誘導ルーティング機構(PCGRM)と劣化対応周波数変調モジュール(DAFMM)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-12-11T18:59:47Z) - FAPE-IR: Frequency-Aware Planning and Execution Framework for All-in-One Image Restoration [29.26604058624955]
画像復元のための周波数対応計画・実行フレームワークであるFAPE-IRを提案する。
凍結したMultimodal Large Language Model (MLLM) をプランナーとして使用し、劣化した画像を解析し、簡潔で周波数対応の復元計画を生成する。
FAPE-IRは、セマンティックプランニングと周波数ベースの復元を結合することにより、オールインワン画像復元のための統一的で解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-18T03:33:10Z) - Learning to Restore Multi-Degraded Images via Ingredient Decoupling and Task-Aware Path Adaptation [51.10017611491389]
現実のイメージは、雨、騒音、ヘイズのような複数の共存する劣化に悩まされることが多い。
本稿では, 劣化成分の分解表現を利用して, 画像の再構成を行う適応型多重劣化画像復元ネットワークを提案する。
その結果、IMDNetと呼ばれる密に統合されたアーキテクチャは、実験を通じて広範囲に検証されている。
論文 参考訳(メタデータ) (2025-11-07T01:50:36Z) - MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration [62.929029990341796]
実世界のビデオは、ノイズ、圧縮アーティファクト、低照度歪みなどの複雑な劣化に悩まされることが多い。
3つの協調エージェントによる人間のプロの推論・処理手順を模倣したMoA-VRを提案する。
具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
論文 参考訳(メタデータ) (2025-10-09T17:42:51Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。
本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。
本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文 参考訳(メタデータ) (2024-09-30T11:16:56Z) - Training-Free Large Model Priors for Multiple-in-One Image Restoration [24.230376300759573]
大型モデル駆動画像復元フレームワーク(LMDIR)
我々のアーキテクチャは、グローバルな劣化知識を注入するクエリベースのプロンプトエンコーダ、分解対応トランスフォーマーブロックで構成されている。
この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
論文 参考訳(メタデータ) (2024-07-18T05:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。