論文の概要: All-weather Multi-Modality Image Fusion: Unified Framework and 100k Benchmark
- arxiv url: http://arxiv.org/abs/2402.02090v2
- Date: Mon, 11 Nov 2024 12:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:30.559077
- Title: All-weather Multi-Modality Image Fusion: Unified Framework and 100k Benchmark
- Title(参考訳): All-weather Multi-Modality Image Fusion: Unified Frameworkと100kベンチマーク
- Authors: Xilai Li, Wuyang Liu, Xiaosong Li, Fuqiang Zhou, Huafeng Li, Feiping Nie,
- Abstract要約: MMIF(Multi-modality Image fusion)は、異なる画像モダリティからの相補的な情報を組み合わせて、より包括的で客観的なシーン解釈を提供する。
既存のMMIF法では、現実の場面で異なる気象干渉に抵抗する能力が欠如しており、自律運転のような実践的な応用では利用できない。
この文脈で効率的なマルチタスクを実現するために,全天候MMIFモデルを提案する。
実世界の場面と合成シーンの両方における実験結果から,提案アルゴリズムは細部回復と多モード特徴抽出に優れることが示された。
- 参考スコア(独自算出の注目度): 42.49073228252726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality image fusion (MMIF) combines complementary information from different image modalities to provide a more comprehensive and objective interpretation of scenes. However, existing MMIF methods lack the ability to resist different weather interferences in real-world scenes, preventing them from being useful in practical applications such as autonomous driving. To bridge this research gap, we proposed an all-weather MMIF model. Achieving effective multi-tasking in this context is particularly challenging due to the complex and diverse nature of weather conditions. A key obstacle lies in the 'black box' nature of current deep learning architectures, which restricts their multi-tasking capabilities. To overcome this, we decompose the network into two modules: a fusion module and a restoration module. For the fusion module, we introduce a learnable low-rank representation model to decompose images into low-rank and sparse components. This interpretable feature separation allows us to better observe and understand images. For the restoration module, we propose a physically-aware clear feature prediction module based on an atmospheric scattering model that can deduce variations in light transmittance from both scene illumination and reflectance. We also construct a large-scale multi-modality dataset with 100,000 image pairs across rain, haze, and snow conditions, covering various degradation levels and diverse scenes to thoroughly evaluate image fusion methods in adverse weather. Experimental results in both real-world and synthetic scenes show that the proposed algorithm excels in detail recovery and multi-modality feature extraction. The code is available at https://github.com/ixilai/AWFusion.
- Abstract(参考訳): MMIF(Multi-modality Image fusion)は、異なる画像モダリティからの相補的な情報を組み合わせて、より包括的で客観的なシーン解釈を提供する。
しかし、既存のMMIF法では、現実の場面で異なる気象干渉に抵抗する能力が欠如しており、自律運転のような実用的な応用では利用できない。
この研究ギャップを埋めるため、我々は全天候MMIFモデルを提案した。
この文脈で効果的なマルチタスクを実現することは、気象条件の複雑で多様な性質のために特に困難である。
重要な障害は、現在のディープラーニングアーキテクチャの‘ブラックボックス’の性質にある。
これを解決するために,ネットワークを融合モジュールと復元モジュールの2つのモジュールに分割する。
融合モジュールに対しては,画像を低ランクかつスパースなコンポーネントに分解する,学習可能な低ランク表現モデルを導入する。
この解釈可能な特徴分離により、イメージをよりよく観察し理解することができます。
再生モジュールでは,光透過率の変動をシーン照明と反射の両方から推定できる大気散乱モデルに基づいて,物理的に認識可能な特徴予測モジュールを提案する。
また, 降雨, ヘイズ, 積雪条件にまたがる画像ペア10万枚からなる大規模多モードデータセットを構築し, 各種劣化レベルと多様な場面を網羅し, 悪天候下での画像融合手法を徹底的に評価した。
実世界の場面と合成シーンの両方における実験結果から,提案アルゴリズムは細部回復と多モード特徴抽出に優れることが示された。
コードはhttps://github.com/ixilai/AWFusion.comで公開されている。
関連論文リスト
- CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration [8.400835004298624]
MMIF(Multimodal Image Fusion)は、様々なモダリティからの補完情報を統合して、より明瞭で情報に富んだ画像を生成する。
既存の悪天候融合法は、ヘイズ、雨、雪などの単一タイプの劣化に対処し、複数の劣化が共存すると失敗する。
本稿では,画像融合と複合気象復元を共同で行う最初のエンドツーエンドフレームワークである複合逆気象マンバを提案する。
論文 参考訳(メタデータ) (2026-03-03T03:27:05Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - MdaIF: Robust One-Stop Multi-Degradation-Aware Image Fusion with Language-Driven Semantics [8.783211177601045]
赤外線と可視画像の融合は、相補的なマルチモーダル情報を単一の融合結果に統合することを目的としている。
大規模言語モデル(MdaIF)により駆動される多段劣化シナリオのためのワンストップ劣化認識画像融合フレームワークを提案する。
気象に配慮した多様な劣化知識とシーン特徴表現を適応的に抽出するために,我々は,事前学習された視覚言語モデル(VLM)をフレームワークに採用する。
論文 参考訳(メタデータ) (2025-11-16T09:43:12Z) - Spatial-Frequency Enhanced Mamba for Multi-Modal Image Fusion [64.5037956060757]
MMIF (Multi-Modal Image Fusion) は、様々なモダリティから補完的な画像情報を統合することを目的としている。
本研究では,MMIFのための空間周波数拡張マンバ融合(SFMFusion)という新しいフレームワークを提案する。
提案手法は,6つのMMIFデータセット上での最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2025-11-10T00:44:49Z) - DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance [11.023241681116295]
本稿では,マルチタスク,マルチデグラデーション,言語誘導画像融合のための統一的なフレームワークを提案する。
本フレームワークは,1)実世界の画像劣化をシミュレートし,モデルを誘導するインタラクティブなプロンプトを生成する実用的な劣化パイプライン,2)遅延空間で動作するオールインワントランスフォーマー(DiT)と,劣化した入力と生成されたプロンプトの両方に条件付きクリーンなイメージを融合させる。
論文 参考訳(メタデータ) (2025-03-19T07:20:02Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - UMCFuse: A Unified Multiple Complex Scenes Infrared and Visible Image Fusion Framework [18.30261731071375]
UMCFuseと呼ばれる複雑なシーンにおける赤外線と可視画像の融合のための統合フレームワークを提案する。
我々は、可視画像のピクセルを光透過の散乱度から分類し、全体的な強度から細部を分離する。
論文 参考訳(メタデータ) (2024-02-03T09:27:33Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - Multi-Scale Progressive Fusion Network for Single Image Deraining [84.0466298828417]
空気中の雨のストリークは、位置からカメラまでの距離が異なるため、様々なぼやけた度合いや解像度で現れる。
同様の降雨パターンは、雨像やマルチスケール(またはマルチレゾリューション)バージョンで見ることができる。
本研究では,入力画像のスケールと階層的な深部特徴の観点から,雨天のマルチスケール協調表現について検討する。
論文 参考訳(メタデータ) (2020-03-24T17:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。