論文の概要: MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance
- arxiv url: http://arxiv.org/abs/2503.14944v1
- Date: Wed, 19 Mar 2025 07:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:42.182526
- Title: MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance
- Title(参考訳): MMAIF: 言語指導による画像融合のためのマルチタスクとマルチデグレーションオールインワン
- Authors: Zihan Cao, Yu Zhong, Ziqi Wang, Liang-Jian Deng,
- Abstract要約: 本稿では,マルチタスク,マルチデグラデーション,言語誘導画像融合のための統一的なフレームワークを提案する。
本フレームワークは,1)実世界の画像劣化をシミュレートし,モデルを誘導するインタラクティブなプロンプトを生成する実用的な劣化パイプライン,2)遅延空間で動作するオールインワントランスフォーマー(DiT)と,劣化した入力と生成されたプロンプトの両方に条件付きクリーンなイメージを融合させる。
- 参考スコア(独自算出の注目度): 11.023241681116295
- License:
- Abstract: Image fusion, a fundamental low-level vision task, aims to integrate multiple image sequences into a single output while preserving as much information as possible from the input. However, existing methods face several significant limitations: 1) requiring task- or dataset-specific models; 2) neglecting real-world image degradations (\textit{e.g.}, noise), which causes failure when processing degraded inputs; 3) operating in pixel space, where attention mechanisms are computationally expensive; and 4) lacking user interaction capabilities. To address these challenges, we propose a unified framework for multi-task, multi-degradation, and language-guided image fusion. Our framework includes two key components: 1) a practical degradation pipeline that simulates real-world image degradations and generates interactive prompts to guide the model; 2) an all-in-one Diffusion Transformer (DiT) operating in latent space, which fuses a clean image conditioned on both the degraded inputs and the generated prompts. Furthermore, we introduce principled modifications to the original DiT architecture to better suit the fusion task. Based on this framework, we develop two versions of the model: Regression-based and Flow Matching-based variants. Extensive qualitative and quantitative experiments demonstrate that our approach effectively addresses the aforementioned limitations and outperforms previous restoration+fusion and all-in-one pipelines. Codes are available at https://github.com/294coder/MMAIF.
- Abstract(参考訳): 基本的な低レベル視覚タスクである画像融合は、入力から可能な限り多くの情報を保存しながら、複数の画像シーケンスを単一の出力に統合することを目的としている。
しかし、既存のメソッドにはいくつかの重大な制限がある。
1) タスク特化モデル又はデータセット特化モデルが必要である。
2) 劣化した入力を処理する際に故障を引き起こす実世界の画像劣化(\textit{e g }, ノイズ)を無視すること。
3)注目機構が計算上高価である画素空間での運用
4) ユーザインタラクション能力の欠如。
これらの課題に対処するために,マルチタスク,マルチ劣化,言語誘導画像融合のための統一的なフレームワークを提案する。
私たちのフレームワークには2つの重要なコンポーネントが含まれています。
1)実世界の画像劣化をシミュレートし、モデルを導くための対話的なプロンプトを生成する実用的な劣化パイプライン。
2)遅延空間で動作するオールインワン拡散変換器(DiT)で、劣化した入力と生成されたプロンプトの両方に条件付きクリーンなイメージを融合させる。
さらに,従来のDiTアーキテクチャに対して,核融合処理に適合する原理的な修正を導入する。
このフレームワークをベースとして,回帰モデルとフローマッチングモデルという2つのバージョンを開発した。
大規模定性的および定量的実験により, 上記の限界に効果的に対処し, 従来の修復+融合やオールインワンパイプラインよりも優れた性能を示した。
コードはhttps://github.com/294coder/MMAIFで入手できる。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Training-Free Large Model Priors for Multiple-in-One Image Restoration [24.230376300759573]
大型モデル駆動画像復元フレームワーク(LMDIR)
我々のアーキテクチャは、グローバルな劣化知識を注入するクエリベースのプロンプトエンコーダ、分解対応トランスフォーマーブロックで構成されている。
この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
論文 参考訳(メタデータ) (2024-07-18T05:40:32Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。