論文の概要: RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation
- arxiv url: http://arxiv.org/abs/2603.09149v1
- Date: Tue, 10 Mar 2026 03:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.999017
- Title: RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation
- Title(参考訳): RTFDNet:ロバストなRGB-Tセグメンテーションのためのフュージョンデカップリング
- Authors: Kunyu Tan, Mingjian Liang,
- Abstract要約: RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度環境で動作するロボットシステムに不可欠である。
伝統的なアプローチは、しばしばモダリティバランスを過度に強調し、センサー信号が部分的に欠如している場合に、頑丈さや厳しい性能が制限される。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGB-Thermal (RGB-T) semantic segmentation is essential for robotic systems operating in low-light or dark environments. However, traditional approaches often overemphasize modality balance, resulting in limited robustness and severe performance degradation when sensor signals are partially missing. Recent advances such as cross-modal knowledge distillation and modality-adaptive fine-tuning attempt to enhance cross-modal interaction, but they typically decouple modality fusion and modality adaptation, requiring multi-stage training with frozen models or teacher-student frameworks. We present RTFDNet, a three-branch encoder-decoder that unifies fusion and decoupling for robust RGB-T segmentation. Synergistic Feature Fusion (SFF) performs channel-wise gated exchange and lightweight spatial attention to inject complementary cues. Cross-Modal Decouple Regularization (CMDR) isolates modality-specific components from the fused representation and supervises unimodal decoders via stop-gradient targets. Region Decouple Regularization (RDR) enforces class-selective prediction consistency in confident regions while blocking gradients to the fusion branch. This feedback loop strengthens unimodal paths without degrading the fused stream, enabling efficient standalone inference at test time. Extensive experiments demonstrate the effectiveness of RTFDNet, showing consistent performance across varying modality conditions. Our implementation will be released to facilitate further research. Our source code are publicly available at https://github.com/curapima/RTFDNet.
- Abstract(参考訳): RGB-Thermal (RGB-T) セマンティックセマンティックセグメンテーションは、低照度または暗黒環境で動作するロボットシステムに不可欠である。
しかしながら、従来のアプローチはモダリティバランスを過度に強調し、センサ信号が部分的に欠如している場合、ロバスト性や性能低下が制限される。
クロスモーダル知識蒸留やモダリティ適応的微調整による相互モーダル相互作用の強化といった最近の進歩は、一般的にはモダリティ融合とモダリティ適応を分離し、凍結モデルや教師による多段階学習を必要とする。
本稿では,3分岐エンコーダデコーダであるRTFDNetについて述べる。
シナジスティック・フィーチャー・フュージョン(SFF)は、チャネルワイドゲート交換と軽量空間アテンションを行い、相補的手がかりを注入する。
CMDR(Cross-Modal Deouple Regularization)は、モダリティ固有のコンポーネントを融合表現から分離し、停止段階のターゲットを通じて一様デコーダを監督する。
領域分離正規化(RDR)は、融合ブランチへの勾配をブロックしながら、自信のある領域でクラス選択的な予測一貫性を強制する。
このフィードバックループは、融合ストリームを劣化させることなく、一様経路を強化し、テスト時に効率的なスタンドアロン推論を可能にする。
大規模な実験はRTFDNetの有効性を示し、様々なモード条件で一貫した性能を示す。
我々の実施はさらなる研究を促進するために公表される。
ソースコードはhttps://github.com/curapima/RTFDNet.comで公開されています。
関連論文リスト
- SwiTrack: Tri-State Switch for Cross-Modal Object Tracking [74.15663758681849]
クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモード間で切り替える間、ターゲットの一貫性を維持する新しいタスクである。
SwiTrackは3つの特別なストリームを配置することでCMOTを再定義する新しいステートスイッチングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T10:52:54Z) - TUNI: Real-time RGB-T Semantic Segmentation with Unified Multi-Modal Feature Extraction and Cross-Modal Feature Fusion [11.878642970457646]
RGB-thermal(RGB-T)セマンティックセマンティックセグメンテーションは、挑戦的な条件下での自律型プラットフォームの環境認識を改善する。
一般的なモデルは、RGBイメージに事前訓練されたエンコーダを使用して、RGBと赤外線の両方の入力から特徴を抽出する。
マルチモーダル特徴抽出とクロスモーダル融合を同時に行う複数の積み重ねブロックからなるRGB-Tエンコーダを用いたTUNIを提案する。
論文 参考訳(メタデータ) (2025-09-12T07:02:45Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - IRFusionFormer: Enhancing Pavement Crack Segmentation with RGB-T Fusion and Topological-Based Loss [0.0]
本稿では,RGBと熱データを効果的に統合したフラクチャーセグメンテーションの新しいモデルであるIRFusionFormerを提案する。
本手法は,90.01%のDiceスコアと81.83%のIoUで最先端性能を実現し,各種環境条件におけるロバスト性および精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-30T16:35:16Z) - WCCNet: Wavelet-context Cooperative Network for Efficient Multispectral Pedestrian Detection [29.43086971740499]
We propose a novel framework named Wavelet-context Cooperative Network (WCCNet)。
WCCNetは、計算複雑性の低い異なるスペクトルの相補的特徴を微分的に抽出することができる。
クロスモーダル相互情報を増幅するために、クロスモーダル再構成融合モジュール(CMRF)を精巧に設計する。
論文 参考訳(メタデータ) (2023-08-02T09:35:21Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。