論文の概要: Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion
- arxiv url: http://arxiv.org/abs/2405.03177v2
- Date: Sat, 20 Jul 2024 12:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 01:41:25.072416
- Title: Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion
- Title(参考訳): チャネルと空間的特徴を融合した変圧器を用いたRGB-T追跡
- Authors: Yunfeng Li, Bo Wang, Ye Li, Zhiwen Yu, Liang Wang,
- Abstract要約: クロスモーダルチャネルと空間的特徴を直接融合することにより、視覚変換器の性能を向上させる方法を示す。
CSTNetは3つの公開RGB-T追跡ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 12.982885009492389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to better fuse cross-modal features is the core issue of RGB-T tracking. Some previous methods either insufficiently fuse RGB and TIR features, or depend on intermediaries containing information from both modalities to achieve cross-modal information interaction. The former does not fully exploit the potential of using only RGB and TIR information of the template or search region for channel and spatial feature fusion, and the latter lacks direct interaction between the template and search area, which limits the model's ability to fully exploit the original semantic information of both modalities. To alleviate these limitations, we explore how to improve the performance of a visual Transformer by using direct fusion of cross-modal channels and spatial features, and propose CSTNet. CSTNet uses ViT as a backbone and inserts cross-modal channel feature fusion modules (CFM) and cross-modal spatial feature fusion modules (SFM) for direct interaction between RGB and TIR features. The CFM performs parallel joint channel enhancement and joint multilevel spatial feature modeling of RGB and TIR features and sums the features, and then globally integrates the sum feature with the original features. The SFM uses cross-attention to model the spatial relationship of cross-modal features and then introduces a convolutional feedforward network for joint spatial and channel integration of multimodal features. We retrain the model with CSNet as the pre-training weights in the model with CFM and SFM removed, and propose CSTNet-small, which achieves 36% reduction in parameters and 24% reduction in Flops, and 50% speedup with a 1-2% performance decrease. Comprehensive experiments show that CSTNet achieves state-of-the-art performance on three public RGB-T tracking benchmarks. Code is available at https://github.com/LiYunfengLYF/CSTNet.
- Abstract(参考訳): クロスモーダルな機能をうまく融合させるには、RGB-Tトラッキングのコアとなる課題がある。
従来の手法では、RGBとTIRの機能の融合が不十分であったり、両方のモダリティからの情報を含む仲介業者に依存していたりした。
前者は、チャネルと空間的特徴融合のためにテンプレートや検索領域のRGBおよびTIR情報のみを使用する可能性を十分に活用していないが、後者はテンプレートと検索領域間の直接的な相互作用が欠如しており、両方のモダリティのオリジナルのセマンティック情報を完全に活用する能力が制限されている。
これらの制約を緩和するために,クロスモーダルチャネルと空間的特徴を直接融合させることにより,視覚変換器の性能を向上させる方法について検討し,CSTNetを提案する。
CSTNet は ViT をバックボーンとして使用し、RGB と TIR の直接通信のために、クロスモーダルチャネル機能融合モジュール (CFM) とクロスモーダル空間機能融合モジュール (SFM) を挿入する。
CFMは、RGBおよびTIR特徴の並列ジョイントチャネル拡張とジョイントマルチレベル空間特徴モデリングを行い、特徴を総和し、元の特徴と総和特徴をグローバルに統合する。
SFMは、クロスアテンションを用いて、クロスモーダル特徴の空間的関係をモデル化し、マルチモーダル特徴の共用空間およびチャネル統合のための畳み込みフィードフォワードネットワークを導入する。
CFM と SFM を除去したモデルにおいて,CSNet を事前学習重量として再訓練し,パラメータの 36% 削減と Flop の 24% 削減を実現し,性能を 1-2% 低下させる CSTNet-small を提案する。
総合的な実験により、CSTNetは3つの公開RGB-T追跡ベンチマークで最先端のパフォーマンスを達成した。
コードはhttps://github.com/LiYunfengLYF/CSTNetで入手できる。
関連論文リスト
- Cross Fusion RGB-T Tracking with Bi-directional Adapter [8.425592063392857]
CFBT(Cross Fusion RGB-T Tracking Architecture)を提案する。
CFBTの有効性は、新しく設計された3つの時間的情報融合モジュールに依存している。
3つのRGB-T追跡ベンチマーク実験により,本手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-30T02:45:56Z) - WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection [16.43119521684829]
我々は、異なるスペクトルのリッチな特徴をより少ない計算量で差分抽出できる WCCNet という新しいフレームワークを提案する。
よく抽出された特徴に基づき、我々はクロスモーダル再配置核融合モジュール(CMRF)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-02T09:35:21Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。