論文の概要: Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2506.23783v1
- Date: Mon, 30 Jun 2025 12:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.049978
- Title: Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking
- Title(参考訳): Mamba-FETrack V2:フレームイベントに基づくビジュアルオブジェクト追跡のための状態空間モデルの再検討
- Authors: Shiao Wang, Ju Huang, Qingchuan Ma, Jinfeng Gao, Chunyi Xu, Xiao Wang, Lan Chen, Bo Jiang,
- Abstract要約: 線形複雑ビジョン・マンバネットワークに基づく効率的なRGB-Eventオブジェクト追跡フレームワークを提案する。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/Mamba_FETrack.comで公開される。
- 参考スコア(独自算出の注目度): 9.353589376846902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining traditional RGB cameras with bio-inspired event cameras for robust object tracking has garnered increasing attention in recent years. However, most existing multimodal tracking algorithms depend heavily on high-complexity Vision Transformer architectures for feature extraction and fusion across modalities. This not only leads to substantial computational overhead but also limits the effectiveness of cross-modal interactions. In this paper, we propose an efficient RGB-Event object tracking framework based on the linear-complexity Vision Mamba network, termed Mamba-FETrack V2. Specifically, we first design a lightweight Prompt Generator that utilizes embedded features from each modality, together with a shared prompt pool, to dynamically generate modality-specific learnable prompt vectors. These prompts, along with the modality-specific embedded features, are then fed into a Vision Mamba-based FEMamba backbone, which facilitates prompt-guided feature extraction, cross-modal interaction, and fusion in a unified manner. Finally, the fused representations are passed to the tracking head for accurate target localization. Extensive experimental evaluations on multiple RGB-Event tracking benchmarks, including short-term COESOT dataset and long-term datasets, i.e., FE108 and FELT V2, demonstrate the superior performance and efficiency of the proposed tracking framework. The source code and pre-trained models will be released on https://github.com/Event-AHU/Mamba_FETrack
- Abstract(参考訳): 従来のRGBカメラとバイオインスパイアされたイベントカメラを組み合わせることで、堅牢なオブジェクト追跡が近年注目を集めている。
しかし、既存のほとんどのマルチモーダル追跡アルゴリズムは、モダリティ間の特徴抽出と融合のために、高複雑さのVision Transformerアーキテクチャに大きく依存している。
これにより計算オーバーヘッドが大幅に増大するだけでなく、モーダル間相互作用の有効性も制限される。
本稿では,Mamba-FETrack V2と呼ばれる線形複雑ビジョンマンバネットワークに基づく,効率的なRGB-Eventオブジェクト追跡フレームワークを提案する。
具体的には、まず、各モーダルから組込み特徴を利用する軽量なプロンプトジェネレータを、共有プロンプトプールとともに設計し、モダリティ固有の学習可能なプロンプトベクトルを動的に生成する。
これらのプロンプトは、モダリティ固有の組み込み機能とともに、Vision MambaベースのFEMambaバックボーンに入力される。
最後に、融合表現をトラッキングヘッドに渡して正確な目標位置決めを行う。
複数のRGBイベント追跡ベンチマークにおいて、短期COESOTデータセットと長期データセット、すなわちFE108とFELT V2を含む大規模な実験的評価により、提案された追跡フレームワークの性能と効率が向上したことを示す。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/Mamba_FETrackでリリースされる。
関連論文リスト
- Visual and Memory Dual Adapter for Multi-Modal Object Tracking [34.406308400305385]
マルチモーダルトラッキングのためのより堅牢な表現を構築するために,新しいビジュアル・メモリ二重アダプタ(VMDA)を提案する。
我々は,識別的手がかりを補助的モダリティから支配的モダリティへ適応的に伝達する,シンプルだが効果的なビジュアルアダプターを開発した。
また、グローバルな時間的手がかりを記憶し、動的更新および検索操作を行うヒューマンメモリ機構にインスパイアされたメモリアダプタを設計する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - Mamba-FETrack: Frame-Event Tracking via State Space Model [14.610806117193116]
本稿では,状態空間モデル(SSM)に基づく新しいRGBイベント追跡フレームワークであるMamba-FETrackを提案する。
具体的には、RGBフレームとイベントストリームの特徴を抽出するために、2つのモダリティ固有のMambaバックボーンネットワークを採用する。
FELTとFE108データセットの大規模な実験により、提案したトラッカーの有効性と有効性を完全に検証した。
論文 参考訳(メタデータ) (2024-04-28T13:12:49Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - RGB-Event Fusion for Moving Object Detection in Autonomous Driving [3.5397758597664306]
移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
我々は、より堅牢なMODを実現するために、2つの相補的モダリティを共同で活用する新しいRGB-Event fusion NetworkであるRENetを提案する。
論文 参考訳(メタデータ) (2022-09-17T12:59:08Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。