論文の概要: RGB-T Tracking Based on Mixed Attention
- arxiv url: http://arxiv.org/abs/2304.04264v1
- Date: Sun, 9 Apr 2023 15:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:43:11.570417
- Title: RGB-T Tracking Based on Mixed Attention
- Title(参考訳): 混合注意に基づくRGB-T追跡
- Authors: Yang Luo, Mingtao Dong, Xiqing Guo, Jin Yu
- Abstract要約: 本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
複数のRGB-T公開データセットの評価では,提案手法が他のRGB-Tトラッカーよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 5.151994214135177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-T tracking involves the use of images from both visible and thermal
modalities. The primary objective is to adaptively lever-age the relatively
dominant modality in varying conditions to achieve more robust tracking
compared to single-modality track-ing. An RGB-T tracker based on mixed
attention mechanism to achieve complementary fusion of modalities (referred to
as MACFT) is proposed in this paper. In the feature extraction stage, we
utilize different transformer backbone branches to extract specific and shared
information from different modali-ties. By performing mixed attention
operations in the backbone to enable information interaction and
self-enhancement between the template and search images, it constructs a robust
feature representation that better understands the high-level semantic features
of the target. Then, in the feature fusion stage, a modal-ity-adaptive fusion
is achieved through a mixed attention-based modality fusion network, which
suppresses the low-quality mo-dality noise while enhancing the information of
the dominant modality. Evaluation on multiple RGB-T public datasets
demon-strates that our proposed tracker outperforms other RGB-T trackers on
general evaluation metrics while also being able to adapt to long-term tracking
scenarios.
- Abstract(参考訳): RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
主な目的は、異なる条件における比較的支配的なモーダリティを適応的にレバー・エイジし、シングルモーダリティ・トラックリングよりもロバストなトラッキングを実現することである。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
特徴抽出段階では、異なるトランスフォーマーバックボーンの分岐を用いて、異なるモダリネクタイから特定の情報や共有情報を抽出する。
テンプレートと検索画像間の情報相互作用と自己強調を可能にするために、バックボーンで混合注意操作を行うことにより、ターゲットの高レベルな意味的特徴をよりよく理解する堅牢な特徴表現を構築する。
そして、特徴融合段階において、優性モダリティ情報を高めつつ低品質モダリティノイズを抑制する混合注意型モダリティ融合ネットワークを介してモダリティ適応融合を実現する。
複数のRGB-T公開データセットの評価は,提案したトラッカーが他のRGB-Tトラッカーよりも高い性能を示しながら,長期追跡シナリオに適応できることを示す。
関連論文リスト
- Coordinate-Aware Thermal Infrared Tracking Via Natural Language Modeling [16.873697155916997]
NLMTrackは、座標対応の熱赤外追跡モデルである。
NLMTrackは、特徴抽出と特徴融合を統一するエンコーダを適用している。
実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-11T08:06:31Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-26T05:09:57Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。