論文の概要: Spectral-Aware Global Fusion for RGB-Thermal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.15491v1
- Date: Wed, 21 May 2025 13:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.654933
- Title: Spectral-Aware Global Fusion for RGB-Thermal Semantic Segmentation
- Title(参考訳): RGB熱セマンティックセマンティックセグメンテーションのためのスペクトル認識グローバルフュージョン
- Authors: Ce Zhang, Zifu Wan, Simon Stepputtis, Katia Sycara, Yaqi Xie,
- Abstract要約: マルチモーダル機能の強化と融合を図るため,SGFNet(Spectral-aware Global Fusion Network)を提案する。
SGFNetは、MFNetとPST900データセットの最先端メソッドよりも優れている。
- 参考スコア(独自算出の注目度): 10.761216101789774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation relying solely on RGB data often struggles in challenging conditions such as low illumination and obscured views, limiting its reliability in critical applications like autonomous driving. To address this, integrating additional thermal radiation data with RGB images demonstrates enhanced performance and robustness. However, how to effectively reconcile the modality discrepancies and fuse the RGB and thermal features remains a well-known challenge. In this work, we address this challenge from a novel spectral perspective. We observe that the multi-modal features can be categorized into two spectral components: low-frequency features that provide broad scene context, including color variations and smooth areas, and high-frequency features that capture modality-specific details such as edges and textures. Inspired by this, we propose the Spectral-aware Global Fusion Network (SGFNet) to effectively enhance and fuse the multi-modal features by explicitly modeling the interactions between the high-frequency, modality-specific features. Our experimental results demonstrate that SGFNet outperforms the state-of-the-art methods on the MFNet and PST900 datasets.
- Abstract(参考訳): RGBデータのみに依存するセマンティックセグメンテーションは、照明の低さや視界の曖昧さといった困難な状況に苦しむことが多く、自動運転のような重要なアプリケーションにおける信頼性を制限している。
これを解決するために、RGB画像と追加の熱放射データを統合することで、性能とロバスト性の向上が示される。
しかし, モダリティの相違を効果的に解決し, RGBと熱的特徴を融合する方法は, 現在でもよく知られている課題である。
本稿では,この課題をスペクトルの新たな視点から論じる。
色の変化やスムーズな領域を含む広いシーンコンテキストを提供する低周波特徴と、エッジやテクスチャなどのモダリティ特有の詳細をキャプチャする高周波特徴の2つのスペクトル成分に分類できる。
そこで本研究では,高頻度・モダリティ特化特徴間の相互作用を明示的にモデル化することにより,マルチモーダル特徴を効果的に拡張・融合するためのスペクトル対応グローバルフュージョンネットワーク(SGFNet)を提案する。
実験の結果,SGFNet は MFNet および PST900 データセットの最先端手法よりも優れていた。
関連論文リスト
- Multispectral Detection Transformer with Infrared-Centric Sensor Fusion [8.762314897895175]
ICフュージョン(IC-Fusion)は、可視光と赤外線を融合する多スペクトル物体検出器である。
ウェーブレット解析と経験的観察により、IR画像は、物体の局在に重要な構造的にリッチな高周波情報を含んでいることがわかった。
論文 参考訳(メタデータ) (2025-05-21T05:44:14Z) - RGB-Thermal Infrared Fusion for Robust Depth Estimation in Complex Environments [0.0]
本稿では,深度推定精度とロバスト性を向上させるマルチモーダル深度推定モデルRTFusionを提案する。
このモデルは、相互補完的アライメント(MCA)モジュールからなる独自の融合機構であるEGFusionを組み込んでいる。
MS2およびViViD++データセットの実験では、提案モデルが高品質な深度マップを一貫して生成していることが示されている。
論文 参考訳(メタデータ) (2025-03-05T01:35:14Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - Unleashing Correlation and Continuity for Hyperspectral Reconstruction from RGB Images [64.80875911446937]
RGB画像からのHSI再構成のための相関連続性ネットワーク(CCNet)を提案する。
局所スペクトルの相関について,GrSCM(Group-wise Spectral correlation Modeling)モジュールを紹介する。
グローバルスペクトルの連続性のために、我々はNeSCMモジュールを設計する。
論文 参考訳(メタデータ) (2025-01-02T15:14:40Z) - HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。
具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。
この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文 参考訳(メタデータ) (2024-04-04T15:31:11Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。