論文の概要: Frequency-Guided Fusion For RGB-Thermal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2605.26273v1
- Date: Mon, 25 May 2026 18:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.369905
- Title: Frequency-Guided Fusion For RGB-Thermal Semantic Segmentation
- Title(参考訳): RGB熱水性セマンティックセマンティックセグメンテーションのための周波数誘導核融合
- Authors: İsmail Emre Canıtez, Özgür Erkent,
- Abstract要約: 本稿では,2つのConvNeXt V2バックボーン上に構築されたマルチモーダル核融合アーキテクチャを提案する。
MFNetとPST900の実験では、我々の最も軽い変種はそれぞれ61.73%、86.24% mIoUであり、35.43Mのパラメータしか得られていない。
- 参考スコア(独自算出の注目度): 0.6187780920448871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation in complex environments such as urban driving scenes remains challenging under adverse lighting conditions, where RGB images alone provide insufficient information. RGB-Thermal fusion leverages the complementary strengths of visible and infrared imagery to improve scene understanding; however, effectively integrating these heterogeneous modalities at varying levels of feature abstraction remains an open problem. In this paper, we propose a multi-modal fusion architecture built upon dual ConvNeXt V2 backbones that employs stage-wise, modality-adaptive fusion strategies. For early-stage features, we introduce a Frequency-Based Fusion Module that decomposes infrared features into low- and high-frequency components via Gaussian filtering, applies dual-branch spatial attention to selectively emphasize thermal patterns and fine-grained boundaries, and integrates them with RGB features through a confidence-gated residual mechanism. For late-stage features, we design a semantic fusion module with cross-modal attention and multi-scale depthwise convolutions to capture semantic correspondences across modalities. The fused features are decoded via a PANet-style bidirectional decoder with deep supervision. Experiments on MFNet and PST900 demonstrate that our lightest variant achieves 61.73\% and 86.24\% mIoU, respectively, with only 35.43M parameters, outperforming recent methods while using substantially fewer parameters and lower computational cost. Code is available at https://github.com/ismailemrecntz/VISIBLE-INFRARED-SENSOR-FUSION
- Abstract(参考訳): 都会の運転シーンのような複雑な環境におけるセマンティックセグメンテーションは、RGB画像だけでは不十分な情報を提供する不適切な照明条件下では依然として困難である。
RGB-熱融合は、可視画像と赤外線画像の相補的な強度を利用してシーン理解を改善するが、これらの不均一なモダリティを様々なレベルの特徴抽象化で効果的に統合することは、未解決の問題である。
本稿では,2つのConvNeXt V2バックボーン上に構築されたマルチモーダル融合アーキテクチャを提案する。
初期機能として、ガウスフィルタによる低周波成分と高周波成分に赤外線機能を分解する周波数ベース核融合モジュールを導入し、熱パターンと細粒度境界を選択的に強調するために二重ブランチ空間的注意を施し、信頼制御された残留機構によりRGB特徴と統合する。
後期機能のために,モーダル間の意味的対応を捉えるために,モーダル間注目と多スケール深度畳み込みを備えた意味的融合モジュールを設計する。
融合した機能は、深く監視されたPANetスタイルの双方向デコーダを介してデコードされる。
MFNet と PST900 の実験により、我々の最も軽量な変種は、それぞれ 61.73\% と 86.24\% mIoU であり、35.43M のパラメータしか持たない。
コードはhttps://github.com/ismailemrecntz/VISIBLE-INFRARED-SENSOR-FUSIONで公開されている。
関連論文リスト
- SWIR-LightFusion: Multi-spectral Semantic Fusion of Synthetic SWIR with Thermal IR (LWIR/MWIR) and RGB [6.054759773528757]
スペクトル再現を主張せずにSWIR様の構造/コントラストキューを合成的に生成する。
次に、合成SWIR、LWIR、RGBモダリティを統合したマルチモーダル融合フレームワークを提案する。
この結果は、監視と自律システムにおける現実世界の応用のかなりの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-15T11:00:41Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Spectral-Aware Global Fusion for RGB-Thermal Semantic Segmentation [10.761216101789774]
マルチモーダル機能の強化と融合を図るため,SGFNet(Spectral-aware Global Fusion Network)を提案する。
SGFNetは、MFNetとPST900データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2025-05-21T13:17:57Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。