論文の概要: Hierarchical Semantic-Visual Fusion of Visible and Near-infrared Images for Long-range Haze Removal
- arxiv url: http://arxiv.org/abs/2507.03893v1
- Date: Sat, 05 Jul 2025 04:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.922843
- Title: Hierarchical Semantic-Visual Fusion of Visible and Near-infrared Images for Long-range Haze Removal
- Title(参考訳): 長距離ヘイズ除去のための可視・近赤外画像の階層的セマンティック・ビジュアル融合
- Authors: Yi Li, Xiaoxiong Wang, Jiawei Wang, Yi Chang, Kai Cao, Luxin Yan,
- Abstract要約: 我々は、赤外線と可視光のモダリティが相補的な低レベルの視覚的特徴を提供するだけでなく、高レベルの意味的一貫性も共有していると主張している。
そこで本研究では,近赤外モードから構造的詳細を組み込むために,ヘイズフリーシーンを再構築するセマンティックストリームと視覚ストリームを提案する。
- 参考スコア(独自算出の注目度): 19.250595093039067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While image dehazing has advanced substantially in the past decade, most efforts have focused on short-range scenarios, leaving long-range haze removal under-explored. As distance increases, intensified scattering leads to severe haze and signal loss, making it impractical to recover distant details solely from visible images. Near-infrared, with superior fog penetration, offers critical complementary cues through multimodal fusion. However, existing methods focus on content integration while often neglecting haze embedded in visible images, leading to results with residual haze. In this work, we argue that the infrared and visible modalities not only provide complementary low-level visual features, but also share high-level semantic consistency. Motivated by this, we propose a Hierarchical Semantic-Visual Fusion (HSVF) framework, comprising a semantic stream to reconstruct haze-free scenes and a visual stream to incorporate structural details from the near-infrared modality. The semantic stream first acquires haze-robust semantic prediction by aligning modality-invariant intrinsic representations. Then the shared semantics act as strong priors to restore clear and high-contrast distant scenes under severe haze degradation. In parallel, the visual stream focuses on recovering lost structural details from near-infrared by fusing complementary cues from both visible and near-infrared images. Through the cooperation of dual streams, HSVF produces results that exhibit both high-contrast scenes and rich texture details. Moreover, we introduce a novel pixel-aligned visible-infrared haze dataset with semantic labels to facilitate benchmarking. Extensive experiments demonstrate the superiority of our method over state-of-the-art approaches in real-world long-range haze removal.
- Abstract(参考訳): 画像のデハジングは過去10年間で大幅に進歩してきたが、ほとんどの取り組みは短い範囲のシナリオに焦点を当てており、長い範囲のヘイズ除去は未調査のままである。
距離が大きくなると、散乱が強くなり、信号の損失が激しくなり、可視画像のみから遠くの細部を復元することは不可能となる。
近赤外線は、霧の浸透が優れているため、多モード核融合による重要な相補的手がかりを提供する。
しかし、既存の手法では、しばしば可視画像に埋め込まれた迷路を無視しながらコンテンツ統合に焦点が当てられているため、残存する迷路が生じる。
本研究では、赤外と可視の両モードが相補的な低レベルの視覚的特徴を提供するだけでなく、高レベルのセマンティック一貫性も共有していると論じる。
そこで我々は,HSVF (Hierarchical Semantic-Visual Fusion) フレームワークを提案する。
セマンティックストリームは、まず、モダリティ不変の内在表現を整列させることにより、ヘイズロバストなセマンティック予測を取得する。
そして、共有セマンティクスは、激しいヘイズ劣化の下で、鮮明で高コントラストの遠い風景を復元する強力な先行として機能する。
並行して、視覚ストリームは、近赤外画像と近赤外画像の両方から相補的な手がかりを融合することにより、失われた構造の詳細を近赤外から回収することに焦点を当てている。
二重ストリームの協調により、HSVFは高コントラストシーンとリッチテクスチャ詳細の両方を示す結果を生成する。
さらに,ベンチマークを容易にするために,セマンティックラベルを付加した新しい画素整列可視光ヘイズデータセットを提案する。
広汎な実験により,現実の長距離ヘイズ除去における最先端アプローチよりも優れた方法が示された。
関連論文リスト
- DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - ExpRDiff: Short-exposure Guided Diffusion Model for Realistic Local Motion Deblurring [61.82010103478833]
そこで本稿では,コンテキストベースの局所的ぼかし検出モジュールを開発し,さらにコンテキスト情報を加えて,ぼかし領域の識別を改善する。
最新のスマートフォンには、短時間露光画像を提供するカメラが備わっていることを考慮し、ぼやけたガイド付き画像復元法を開発した。
上記のコンポーネントを ExpRDiff という名前のシンプルで効果的なネットワークに定式化します。
論文 参考訳(メタデータ) (2024-12-12T11:42:39Z) - Cross-Modal Spherical Aggregation for Weakly Supervised Remote Sensing Shadow Removal [22.4845448174729]
本研究では,S2-ShadowNetと呼ばれる球面特徴空間を持つ弱教師付きシャドウ除去ネットワークを提案する。
具体的には、クロスドメインマッピングを学習するために、モーダル変換(可視赤外)モデルを使用し、現実的な赤外線サンプルを生成する。
シャドウマスクを用いた4000個のシャドウ画像を含む,大規模に監督されたシャドウ除去ベンチマークに寄与する。
論文 参考訳(メタデータ) (2024-06-25T11:14:09Z) - Decomposition-based and Interference Perception for Infrared and Visible
Image Fusion in Complex Scenes [4.919706769234434]
本稿では,分解に基づく干渉知覚画像融合法を提案する。
可視画像の画素を光透過の散乱度から分類し,画像の細部とエネルギー情報を分離する。
この洗練された分解により、複雑なシーンにあるより干渉するピクセルを識別するモデルが提案される。
論文 参考訳(メタデータ) (2024-02-03T09:27:33Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。