論文の概要: Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2403.05839v1
- Date: Sat, 9 Mar 2024 08:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:15:59.918530
- Title: Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline
- Title(参考訳): 長期フレームイベントビジュアルトラッキング:ベンチマークデータセットとベースライン
- Authors: Xiao Wang, Ju Huang, Shiao Wang, Chuanming Tang, Bo Jiang, Yonghong
Tian, Jin Tang, Bin Luo
- Abstract要約: まず, FELTと呼ばれる, 長期的かつ大規模な単一オブジェクト追跡データセットを提案する。
742の動画と1,594,474のRGBフレームとイベントストリームペアが含まれており、これまでで最大のフレームイベント追跡データセットになっている。
本稿では,RGBとイベントデータの両方を融合させるために,現代的なホップフィールド層をマルチヘッド自己アテンションブロックに導入することで,統一バックボーンとして新しい連想メモリトランスフォーマーネットワークを提案する。
- 参考スコア(独自算出の注目度): 38.6596313540079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current event-/frame-event based trackers undergo evaluation on short-term
tracking datasets, however, the tracking of real-world scenarios involves
long-term tracking, and the performance of existing tracking algorithms in
these scenarios remains unclear. In this paper, we first propose a new
long-term and large-scale frame-event single object tracking dataset, termed
FELT. It contains 742 videos and 1,594,474 RGB frames and event stream pairs
and has become the largest frame-event tracking dataset to date. We re-train
and evaluate 15 baseline trackers on our dataset for future works to compare.
More importantly, we find that the RGB frames and event streams are naturally
incomplete due to the influence of challenging factors and spatially sparse
event flow. In response to this, we propose a novel associative memory
Transformer network as a unified backbone by introducing modern Hopfield layers
into multi-head self-attention blocks to fuse both RGB and event data.
Extensive experiments on both FELT and RGB-T tracking dataset LasHeR fully
validated the effectiveness of our model. The dataset and source code can be
found at \url{https://github.com/Event-AHU/FELT_SOT_Benchmark}.
- Abstract(参考訳): 現在のイベント/フレームイベントベースのトラッカーは短期追跡データセットの評価を受けているが、実世界のシナリオの追跡には長期追跡が必要であり、これらのシナリオにおける既存のトラッキングアルゴリズムのパフォーマンスは未だ不明である。
本稿では, FELT と呼ばれる, 長期かつ大規模で大規模な単一オブジェクト追跡データセットを提案する。
742の動画と1,594,474のrgbフレームとイベントストリームペアがあり、これまでで最大のフレームイベントトラッキングデータセットとなっている。
今後比較する作業のために、データセット上で15のベースライントラッカーを再トレーニングし、評価します。
さらに重要なことは、RGBフレームとイベントストリームが自然に不完全であることは、困難な要因と空間的に疎いイベントフローの影響により明らかである。
そこで本稿では,rgbとイベントデータを融合するマルチヘッド自己アテンションブロックに現代的なホップフィールド層を導入することで,新たな連想メモリトランスフォーマーネットワークを提案する。
FELTとRGB-T追跡データセットLasHeRの大規模な実験により,本モデルの有効性が完全に検証された。
データセットとソースコードは \url{https://github.com/Event-AHU/FELT_SOT_Benchmark} で見ることができる。
関連論文リスト
- BlinkTrack: Feature Tracking over 100 FPS via Events and Images [50.98675227695814]
本稿では,RGB画像とイベントデータを統合した新しいフレームワークであるBlinkTrackを提案する。
本手法は,従来のカルマンフィルタを学習ベースのフレームワークに拡張し,イベントおよびイメージの分岐において微分可能なカルマンフィルタを利用する。
実験の結果、BlinkTrackは既存のイベントベースの手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-09-26T15:54:18Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - GLEN: General-Purpose Event Detection for Thousands of Types [80.99866527772512]
汎用的なイベント検出データセットGLENを構築し、205Kイベントの参照を3,465種類の異なるタイプでカバーしています。
GLENはオントロジーにおいて、今日の最大のイベントデータセットよりも20倍大きい。
また,GLENの大規模化に特化して設計された多段階イベント検出モデルCEDARを提案する。
論文 参考訳(メタデータ) (2023-03-16T05:36:38Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - RGBD1K: A Large-scale Dataset and Benchmark for RGB-D Object Tracking [30.448658049744775]
注釈付きRGB-D追跡データが限られているため、最先端のRGB-Dトラッカーのほとんどは、高性能なRGB-Dトラッカーの単純な拡張である。
データセット不足問題に対処するため,RGBD1Kという新しいRGB-Dデータセットを報告した。
論文 参考訳(メタデータ) (2022-08-21T03:07:36Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。