論文の概要: Mamba-FETrack: Frame-Event Tracking via State Space Model
- arxiv url: http://arxiv.org/abs/2404.18174v1
- Date: Sun, 28 Apr 2024 13:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 17:33:28.884741
- Title: Mamba-FETrack: Frame-Event Tracking via State Space Model
- Title(参考訳): Mamba-FETrack:状態空間モデルによるフレームイベント追跡
- Authors: Ju Huang, Shiao Wang, Shuai Wang, Zhe Wu, Xiao Wang, Bo Jiang,
- Abstract要約: 本稿では,状態空間モデル(SSM)に基づく新しいRGBイベント追跡フレームワークであるMamba-FETrackを提案する。
具体的には、RGBフレームとイベントストリームの特徴を抽出するために、2つのモダリティ固有のMambaバックボーンネットワークを採用する。
FELTとFE108データセットの大規模な実験により、提案したトラッカーの有効性と有効性を完全に検証した。
- 参考スコア(独自算出の注目度): 14.610806117193116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-Event based tracking is an emerging research topic, focusing on how to effectively integrate heterogeneous multi-modal data (synchronized exposure video frames and asynchronous pulse Event stream). Existing works typically employ Transformer based networks to handle these modalities and achieve decent accuracy through input-level or feature-level fusion on multiple datasets. However, these trackers require significant memory consumption and computational complexity due to the use of self-attention mechanism. This paper proposes a novel RGB-Event tracking framework, Mamba-FETrack, based on the State Space Model (SSM) to achieve high-performance tracking while effectively reducing computational costs and realizing more efficient tracking. Specifically, we adopt two modality-specific Mamba backbone networks to extract the features of RGB frames and Event streams. Then, we also propose to boost the interactive learning between the RGB and Event features using the Mamba network. The fused features will be fed into the tracking head for target object localization. Extensive experiments on FELT and FE108 datasets fully validated the efficiency and effectiveness of our proposed tracker. Specifically, our Mamba-based tracker achieves 43.5/55.6 on the SR/PR metric, while the ViT-S based tracker (OSTrack) obtains 40.0/50.9. The GPU memory cost of ours and ViT-S based tracker is 13.98GB and 15.44GB, which decreased about $9.5\%$. The FLOPs and parameters of ours/ViT-S based OSTrack are 59GB/1076GB and 7MB/60MB, which decreased about $94.5\%$ and $88.3\%$, respectively. We hope this work can bring some new insights to the tracking field and greatly promote the application of the Mamba architecture in tracking. The source code of this work will be released on \url{https://github.com/Event-AHU/Mamba_FETrack}.
- Abstract(参考訳): RGB-Eventベースのトラッキングは、異種マルチモーダルデータ(同期露光ビデオフレームと非同期パルスイベントストリーム)を効果的に統合する方法に焦点を当てた、新たな研究トピックである。
既存の作業は通常、Transformerベースのネットワークを使用して、これらのモダリティを処理し、複数のデータセット上の入力レベルまたは機能レベルの融合を通じて、適切な精度を達成する。
しかし、これらのトラッカーは、自己注意機構を使用するため、メモリ消費と計算の複雑さがかなり必要である。
本稿では,SSM(State Space Model)に基づく新しいRGBイベント追跡フレームワークであるMamba-FETrackを提案し,計算コストを効果的に削減し,より効率的なトラッキングを実現する。
具体的には、RGBフレームとイベントストリームの特徴を抽出するために、2つのモダリティ固有のMambaバックボーンネットワークを採用する。
また,Mamba ネットワークを用いた RGB と Event の機能間の対話的学習を促進することを提案する。
融合した機能は、ターゲットオブジェクトのローカライゼーションのためにトラッキングヘッドに入力される。
FELTとFE108データセットの大規模な実験により、提案したトラッカーの有効性と有効性を完全に検証した。
具体的には、我々のMambaベースのトラッカーはSR/PRで43.5/55.6、ViT-Sベースのトラッカー(OSTrack)は40.0/50.9である。
当社とViT-SベースのトラッカーのGPUメモリコストは13.98GBと15.44GBであり、約9.5\%$を下げた。
FLOPとOSTrackのパラメータは59GB/1076GBと7MB/60MBであり、それぞれ約94.5\%$と8.3\%$が減少した。
この研究がトラッキング分野に新たな洞察をもたらし、トラッキングにおけるMambaアーキテクチャの適用を大幅に促進することを期待しています。
この作業のソースコードは \url{https://github.com/Event-AHU/Mamba_FETrack} で公開される。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning [33.521077115333696]
我々は、OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。
OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。
次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。
論文 参考訳(メタデータ) (2024-03-14T17:59:13Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - LightTrack: Finding Lightweight Neural Networks for Object Tracking via
One-Shot Architecture Search [104.84999119090887]
ニューラルアーキテクチャサーチ(NAS)を用いて、より軽量で効率的なオブジェクトトラッカーを設計するLightTrackを提案する。
総合的な実験は、LightTrackが効果的であることを示している。
SiamRPN++やOceanといった手作りのSOTAトラッカーよりも優れたパフォーマンスを実現するトラッカーを見つけることができる。
論文 参考訳(メタデータ) (2021-04-29T17:55:24Z) - STMTrack: Template-free Visual Tracking with Space-time Memory Networks [42.06375415765325]
テンプレート更新機構を持つ既存のトラッカーは、競争性能を達成するために、時間を要する数値最適化と複雑な手設計戦略に依存している。
本稿では,ターゲットに関する歴史的情報を十分に活用することのできる,時空メモリネットワーク上に構築した新しいトラッキングフレームワークを提案する。
具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。
論文 参考訳(メタデータ) (2021-04-01T08:10:56Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。