論文の概要: MambaEVT: Event Stream based Visual Object Tracking using State Space Model
- arxiv url: http://arxiv.org/abs/2408.10487v1
- Date: Tue, 20 Aug 2024 02:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:34:22.943627
- Title: MambaEVT: Event Stream based Visual Object Tracking using State Space Model
- Title(参考訳): MambaEVT:状態空間モデルを用いたイベントストリームベースのビジュアルオブジェクト追跡
- Authors: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang,
- Abstract要約: バックボーンネットワークとして線形複雑性を持つ状態空間モデルを採用した新しいマンバ型ビジュアルトラッキングフレームワークを提案する。
動的テンプレートと静的テンプレートを効果的に組み合わせることで、Mambaベースのトラッキングアルゴリズムは、複数の大規模データセットの精度と計算コストのバランスが良くなります。
- 参考スコア(独自算出の注目度): 20.114886319382943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event camera-based visual tracking has drawn more and more attention in recent years due to the unique imaging principle and advantages of low energy consumption, high dynamic range, and dense temporal resolution. Current event-based tracking algorithms are gradually hitting their performance bottlenecks, due to the utilization of vision Transformer and the static template for target object localization. In this paper, we propose a novel Mamba-based visual tracking framework that adopts the state space model with linear complexity as a backbone network. The search regions and target template are fed into the vision Mamba network for simultaneous feature extraction and interaction. The output tokens of search regions will be fed into the tracking head for target localization. More importantly, we consider introducing a dynamic template update strategy into the tracking framework using the Memory Mamba network. By considering the diversity of samples in the target template library and making appropriate adjustments to the template memory module, a more effective dynamic template can be integrated. The effective combination of dynamic and static templates allows our Mamba-based tracking algorithm to achieve a good balance between accuracy and computational cost on multiple large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source code will be released on https://github.com/Event-AHU/MambaEVT
- Abstract(参考訳): イベントカメラによる視覚追跡は、低エネルギー消費、高ダイナミックレンジ、高密度時間分解能のユニークな画像原理と利点により、近年ますます注目されている。
現在のイベントベースのトラッキングアルゴリズムは、ターゲットオブジェクトのローカライゼーションにVision Transformerと静的テンプレートを利用することによって、徐々にパフォーマンスのボトルネックにぶつかっている。
本稿では,バックボーンネットワークとして線形複雑性を持つ状態空間モデルを採用した新しいマンバ型ビジュアルトラッキングフレームワークを提案する。
検索領域とターゲットテンプレートは、視覚マンバネットワークに入力され、特徴抽出と相互作用が同時に行われる。
検索領域の出力トークンは、ターゲットのローカライゼーションのためにトラッキングヘッドに入力される。
さらに重要なことは、我々はMemory Mambaネットワークを使用して追跡フレームワークに動的テンプレート更新戦略を導入することを検討している。
対象のテンプレートライブラリのサンプルの多様性を考慮し、テンプレートメモリモジュールを適切に調整することにより、より効果的な動的テンプレートを統合することができる。
動的テンプレートと静的テンプレートの効果的な組み合わせにより、当社のMambaベースのトラッキングアルゴリズムは、EventVOT、VisEvent、FE240hzなど、複数の大規模データセットにおいて、精度と計算コストのバランスよく実現できる。
ソースコードはhttps://github.com/Event-AHU/MambaEVTで公開される。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。
提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文 参考訳(メタデータ) (2022-10-16T12:31:59Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Discriminative Appearance Modeling with Multi-track Pooling for
Real-time Multi-object Tracking [20.66906781151]
マルチオブジェクトトラッキングでは、トラッカーはそのメモリ内にシーンの各オブジェクトの外観と動き情報を保持する。
多くのアプローチは、それぞれのターゲットを分離してモデル化し、シーン内のすべてのターゲットを使用してメモリを共同で更新する能力がない。
オンライン上でハードトラッキングのエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-28T18:12:39Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。