論文の概要: TUNI: Real-time RGB-T Semantic Segmentation with Unified Multi-Modal Feature Extraction and Cross-Modal Feature Fusion
- arxiv url: http://arxiv.org/abs/2509.10005v1
- Date: Fri, 12 Sep 2025 07:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.997242
- Title: TUNI: Real-time RGB-T Semantic Segmentation with Unified Multi-Modal Feature Extraction and Cross-Modal Feature Fusion
- Title(参考訳): TUNI: マルチモーダル特徴抽出とクロスモーダル特徴融合によるリアルタイムRGB-Tセマンティックセグメンテーション
- Authors: Xiaodong Guo, Tong Liu, Yike Li, Zi'ang Lin, Zhihong Deng,
- Abstract要約: RGB-thermal(RGB-T)セマンティックセマンティックセグメンテーションは、挑戦的な条件下での自律型プラットフォームの環境認識を改善する。
一般的なモデルは、RGBイメージに事前訓練されたエンコーダを使用して、RGBと赤外線の両方の入力から特徴を抽出する。
マルチモーダル特徴抽出とクロスモーダル融合を同時に行う複数の積み重ねブロックからなるRGB-Tエンコーダを用いたTUNIを提案する。
- 参考スコア(独自算出の注目度): 11.878642970457646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-thermal (RGB-T) semantic segmentation improves the environmental perception of autonomous platforms in challenging conditions. Prevailing models employ encoders pre-trained on RGB images to extract features from both RGB and infrared inputs, and design additional modules to achieve cross-modal feature fusion. This results in limited thermal feature extraction and suboptimal cross-modal fusion, while the redundant encoders further compromises the model's real-time efficiency. To address the above issues, we propose TUNI, with an RGB-T encoder consisting of multiple stacked blocks that simultaneously perform multi-modal feature extraction and cross-modal fusion. By leveraging large-scale pre-training with RGB and pseudo-thermal data, the RGB-T encoder learns to integrate feature extraction and fusion in a unified manner. By slimming down the thermal branch, the encoder achieves a more compact architecture. Moreover, we introduce an RGB-T local module to strengthen the encoder's capacity for cross-modal local feature fusion. The RGB-T local module employs adaptive cosine similarity to selectively emphasize salient consistent and distinct local features across RGB-T modalities. Experimental results show that TUNI achieves competitive performance with state-of-the-art models on FMB, PST900 and CART, with fewer parameters and lower computational cost. Meanwhile, it achieves an inference speed of 27 FPS on a Jetson Orin NX, demonstrating its real-time capability in deployment. Codes are available at https://github.com/xiaodonguo/TUNI.
- Abstract(参考訳): RGB-thermal(RGB-T)セマンティックセマンティックセグメンテーションは、挑戦的な条件下での自律型プラットフォームの環境認識を改善する。
一般的なモデルは、RGBイメージに事前訓練されたエンコーダを使用して、RGBと赤外線の両方の入力から特徴を抽出し、クロスモーダルな特徴融合を実現するために追加モジュールを設計する。
この結果、熱的特徴抽出と準最適相互融合が制限され、冗長エンコーダはモデルのリアルタイム効率をさらに損なう。
上記の問題に対処するため,マルチモーダル特徴抽出とクロスモーダル融合を同時に行う複数の積み重ねブロックからなるRGB-Tエンコーダを用いたTUNIを提案する。
RGBと擬熱データによる大規模事前学習を活用することで、RGB-Tエンコーダは特徴抽出と融合を統一的に統合することを学ぶ。
熱分岐をスリム化することで、エンコーダはよりコンパクトなアーキテクチャを実現する。
さらに,マルチモーダルな局所的特徴融合のためのエンコーダの容量を強化するために,RGB-Tローカルモジュールを導入する。
RGB-T の局所加群は適応コサイン類似性を用いて、RGB-T のモダリティにまたがる正に一貫した局所的特徴と異なる局所的特徴を選択的に強調する。
実験の結果, TUNIはFMB, PST900, CARTの最先端モデルと競合する性能を示し, パラメータが少なく, 計算コストも低い。
一方、Jetson Orin NXで27 FPSの推論速度を実現し、そのリアルタイムのデプロイ能力を示している。
コードはhttps://github.com/xiaodonguo/TUNI.comで公開されている。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion [4.963745612929956]
RGB-Tトラッキングの主な問題は、可視画像と熱画像のクロスモーダルな特徴の正当かつ最適なマージである。
CSTNetは、RGB-Tトラッキングにおけるクロスモーダルチャネルと空間的特徴の直接融合を実現することを目的としている。
CSTNetとCSTNet-smallはNvidia Jetson Xavierで21fpsと33fpsのリアルタイム速度を実現している。
論文 参考訳(メタデータ) (2024-05-06T05:58:49Z) - RGB-X Object Detection via Scene-Specific Fusion Modules [10.583691362114473]
本稿では,事前学習した単一モードモデルの活用と融合が可能な,効率的かつモジュール化されたRGB-X融合ネットワークを提案する。
本実験は,RGB-熱的およびRGB-ゲート型データセットにおける既存の研究と比較して,本手法の優位性を実証するものである。
論文 参考訳(メタデータ) (2023-10-30T09:27:31Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。