論文の概要: MdaIF: Robust One-Stop Multi-Degradation-Aware Image Fusion with Language-Driven Semantics
- arxiv url: http://arxiv.org/abs/2511.12525v1
- Date: Sun, 16 Nov 2025 09:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.297438
- Title: MdaIF: Robust One-Stop Multi-Degradation-Aware Image Fusion with Language-Driven Semantics
- Title(参考訳): MdaIF: 言語駆動セマンティックスを用いたロバストなワンストップ多段階画像融合
- Authors: Jing Li, Yifan Wang, Jiafeng Yan, Renlong Zhang, Bin Yang,
- Abstract要約: 赤外線と可視画像の融合は、相補的なマルチモーダル情報を単一の融合結果に統合することを目的としている。
大規模言語モデル(MdaIF)により駆動される多段劣化シナリオのためのワンストップ劣化認識画像融合フレームワークを提案する。
気象に配慮した多様な劣化知識とシーン特徴表現を適応的に抽出するために,我々は,事前学習された視覚言語モデル(VLM)をフレームワークに採用する。
- 参考スコア(独自算出の注目度): 8.783211177601045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion aims to integrate complementary multi-modal information into a single fused result. However, existing methods 1) fail to account for the degradation visible images under adverse weather conditions, thereby compromising fusion performance; and 2) rely on fixed network architectures, limiting their adaptability to diverse degradation scenarios. To address these issues, we propose a one-stop degradation-aware image fusion framework for multi-degradation scenarios driven by a large language model (MdaIF). Given the distinct scattering characteristics of different degradation scenarios (e.g., haze, rain, and snow) in atmospheric transmission, a mixture-of-experts (MoE) system is introduced to tackle image fusion across multiple degradation scenarios. To adaptively extract diverse weather-aware degradation knowledge and scene feature representations, collectively referred to as the semantic prior, we employ a pre-trained vision-language model (VLM) in our framework. Guided by the semantic prior, we propose degradation-aware channel attention module (DCAM), which employ degradation prototype decomposition to facilitate multi-modal feature interaction in channel domain. In addition, to achieve effective expert routing, the semantic prior and channel-domain modulated features are utilized to guide the MoE, enabling robust image fusion in complex degradation scenarios. Extensive experiments validate the effectiveness of our MdaIF, demonstrating superior performance over SOTA methods.
- Abstract(参考訳): 赤外線と可視画像の融合は、相補的なマルチモーダル情報を単一の融合結果に統合することを目的としている。
しかし、既存の方法
1)悪天候下における可視画像の劣化を考慮せず、融合性能を損なう。
2) 固定されたネットワークアーキテクチャに依存し、さまざまな劣化シナリオへの適応性を制限する。
これらの問題に対処するために,大規模言語モデル(MdaIF)によって駆動される多段劣化シナリオのためのワンストップ劣化対応画像融合フレームワークを提案する。
大気透過における異なる劣化シナリオ(例えば, ヘイズ, 雨, 雪)の異なる散乱特性を考慮し, 複数の劣化シナリオにまたがる画像融合に取り組むために, 実験混合物(MoE)システムを導入している。
本フレームワークでは,多種多様な気象対応劣化知識とシーン特徴表現を適応的に抽出するために,事前学習された視覚言語モデル(VLM)を用いる。
そこで本研究では, 分解プロトタイプを用いた劣化認識型チャネルアテンションモジュール (DCAM) を提案し, チャネル領域におけるマルチモーダル特徴の相互作用を容易にする。
さらに、効果的な専門家ルーティングを実現するために、セマンティック事前およびチャネル領域変調機能を使用してMoEをガイドし、複雑な劣化シナリオにおける堅牢な画像融合を可能にする。
大規模な実験によりMdaIFの有効性が検証され,SOTA法よりも優れた性能を示した。
関連論文リスト
- Coupled Degradation Modeling and Fusion: A VLM-Guided Degradation-Coupled Network for Degradation-Aware Infrared and Visible Image Fusion [9.915632806109555]
VLM誘導劣化結合型核融合ネットワーク(VGDCFusion)を提案する。
我々のVGDCFusionは、様々な劣化した画像シナリオ下で、既存の最先端の融合アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-13T14:26:33Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts [82.52042409680267]
現在の画像融合法は、現実の撮像シナリオで発生する複合劣化に対処するのに苦労している。
本稿では,制御フュージョンと呼ばれる言語ビジョンプロンプトを用いた制御可能な画像融合フレームワークを提案する。
実験では、制御フュージョンは、融合品質と劣化処理においてSOTA融合法より優れている。
論文 参考訳(メタデータ) (2025-03-30T08:18:53Z) - MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance [11.023241681116295]
本稿では,マルチタスク,マルチデグラデーション,言語誘導画像融合のための統一的なフレームワークを提案する。
本フレームワークは,1)実世界の画像劣化をシミュレートし,モデルを誘導するインタラクティブなプロンプトを生成する実用的な劣化パイプライン,2)遅延空間で動作するオールインワントランスフォーマー(DiT)と,劣化した入力と生成されたプロンプトの両方に条件付きクリーンなイメージを融合させる。
論文 参考訳(メタデータ) (2025-03-19T07:20:02Z) - Learning a Unified Degradation-aware Representation Model for Multi-modal Image Fusion [13.949209965987308]
All-in-One Degradation-Aware Fusion Models (ADFM)は、ソース画像からの劣化を軽減し、高品質の融合画像を生成することで複雑なシーンに対処する。
メインストリームADFMは、しばしば高度に合成されたマルチモーダル・マルチクオリティ・イメージを監督に頼り、クロスモーダルおよび希少な劣化シナリオにおけるその有効性を制限している。
本稿では、赤外線と可視画像融合のための学習駆動統一表現モデルLUREについて述べる。
論文 参考訳(メタデータ) (2025-03-10T08:16:36Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - All-weather Multi-Modality Image Fusion: Unified Framework and 100k Benchmark [42.49073228252726]
MMIF(Multi-modality Image fusion)は、異なる画像モダリティからの相補的な情報を組み合わせて、より包括的で客観的なシーン解釈を提供する。
既存のMMIF法では、現実の場面で異なる気象干渉に抵抗する能力が欠如しており、自律運転のような実践的な応用では利用できない。
この文脈で効率的なマルチタスクを実現するために,全天候MMIFモデルを提案する。
実世界の場面と合成シーンの両方における実験結果から,提案アルゴリズムは細部回復と多モード特徴抽出に優れることが示された。
論文 参考訳(メタデータ) (2024-02-03T09:02:46Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。