論文の概要: Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion
- arxiv url: http://arxiv.org/abs/2405.03177v3
- Date: Sun, 22 Jun 2025 07:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.16041
- Title: Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion
- Title(参考訳): チャネルと空間的特徴を融合した変圧器を用いたRGB-T追跡
- Authors: Yunfeng Li, Bo Wang, Ye Li,
- Abstract要約: RGB-Tトラッキングの主な問題は、可視画像と熱画像のクロスモーダルな特徴の正当かつ最適なマージである。
CSTNetは、RGB-Tトラッキングにおけるクロスモーダルチャネルと空間的特徴の直接融合を実現することを目的としている。
CSTNetとCSTNet-smallはNvidia Jetson Xavierで21fpsと33fpsのリアルタイム速度を実現している。
- 参考スコア(独自算出の注目度): 4.963745612929956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main problem in RGB-T tracking is the correct and optimal merging of the cross-modal features of visible and thermal images. Some previous methods either do not fully exploit the potential of RGB and TIR information for channel and spatial feature fusion or lack a direct interaction between the template and the search area, which limits the model's ability to fully utilize the original semantic information of both modalities. To address these limitations, we investigate how to achieve a direct fusion of cross-modal channels and spatial features in RGB-T tracking and propose CSTNet. It uses the Vision Transformer (ViT) as the backbone and adds a Joint Spatial and Channel Fusion Module (JSCFM) and Spatial Fusion Module (SFM) integrated between the transformer blocks to facilitate cross-modal feature interaction. The JSCFM module achieves joint modeling of channel and multi-level spatial features. The SFM module includes a cross-attention-like architecture for cross modeling and joint learning of RGB and TIR features. Comprehensive experiments show that CSTNet achieves state-of-the-art performance. To enhance practicality, we retrain the model without JSCFM and SFM modules and use CSNet as the pretraining weight, and propose CSTNet-small, which achieves 50% speedup with an average decrease of 1-2% in SR and PR performance. CSTNet and CSTNet-small achieve real-time speeds of 21 fps and 33 fps on the Nvidia Jetson Xavier, meeting actual deployment requirements. Code is available at https://github.com/LiYunfengLYF/CSTNet.
- Abstract(参考訳): RGB-Tトラッキングの主な問題は、可視画像と熱画像のクロスモーダルな特徴の正当かつ最適なマージである。
従来の手法では、チャネルと空間的特徴融合のためのRGBおよびTIR情報の可能性を十分に活用していないか、テンプレートと検索領域間の直接的な相互作用が欠如している。
これらの制約に対処するために、RGB-Tトラッキングにおけるクロスモーダルチャネルと空間的特徴の直接融合を実現する方法について検討し、CSTNetを提案する。
Vision Transformer (ViT) をバックボーンとして使用し、Spatial and Channel Fusion Module (JSCFM) とSpatial Fusion Module (SFM) をトランスフォーマーブロック間で統合し、クロスモーダルな特徴の相互作用を容易にする。
JSCFMモジュールはチャネルとマルチレベル空間特性の合同モデリングを実現する。
SFMモジュールには、RGBとTIRの機能のクロスモデリングと共同学習のための、クロスアテンションのようなアーキテクチャが含まれている。
総合的な実験により、CSTNetは最先端のパフォーマンスを達成した。
実用性を高めるため,JSCFMやSFMモジュールを使わずにモデルを再訓練し,CSNetを事前訓練重量とし,SRとPRのパフォーマンスを平均1-2%低下させて50%高速化するCSTNet-smallを提案する。
CSTNetとCSTNet-smallはNvidia Jetson Xavierで21fpsと33fpsのリアルタイム速度を実現し、実際のデプロイメント要件を満たしている。
コードはhttps://github.com/LiYunfengLYF/CSTNetで入手できる。
関連論文リスト
- Cross Fusion RGB-T Tracking with Bi-directional Adapter [8.425592063392857]
CFBT(Cross Fusion RGB-T Tracking Architecture)を提案する。
CFBTの有効性は、新しく設計された3つの時間的情報融合モジュールに依存している。
3つのRGB-T追跡ベンチマーク実験により,本手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-30T02:45:56Z) - WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection [16.43119521684829]
我々は、異なるスペクトルのリッチな特徴をより少ない計算量で差分抽出できる WCCNet という新しいフレームワークを提案する。
よく抽出された特徴に基づき、我々はクロスモーダル再配置核融合モジュール(CMRF)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-02T09:35:21Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。