論文の概要: Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2403.05839v1
- Date: Sat, 9 Mar 2024 08:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-13 12:15:59.918530
- Title: Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline
- Title(参考訳): 長期フレームイベントビジュアルトラッキング:ベンチマークデータセットとベースライン
- Authors: Xiao Wang, Ju Huang, Shiao Wang, Chuanming Tang, Bo Jiang, Yonghong
Tian, Jin Tang, Bin Luo
- Abstract要約: まず, FELTと呼ばれる, 長期的かつ大規模な単一オブジェクト追跡データセットを提案する。
742の動画と1,594,474のRGBフレームとイベントストリームペアが含まれており、これまでで最大のフレームイベント追跡データセットになっている。
本稿では,RGBとイベントデータの両方を融合させるために,現代的なホップフィールド層をマルチヘッド自己アテンションブロックに導入することで,統一バックボーンとして新しい連想メモリトランスフォーマーネットワークを提案する。
- 参考スコア(独自算出の注目度): 38.6596313540079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current event-/frame-event based trackers undergo evaluation on short-term
tracking datasets, however, the tracking of real-world scenarios involves
long-term tracking, and the performance of existing tracking algorithms in
these scenarios remains unclear. In this paper, we first propose a new
long-term and large-scale frame-event single object tracking dataset, termed
FELT. It contains 742 videos and 1,594,474 RGB frames and event stream pairs
and has become the largest frame-event tracking dataset to date. We re-train
and evaluate 15 baseline trackers on our dataset for future works to compare.
More importantly, we find that the RGB frames and event streams are naturally
incomplete due to the influence of challenging factors and spatially sparse
event flow. In response to this, we propose a novel associative memory
Transformer network as a unified backbone by introducing modern Hopfield layers
into multi-head self-attention blocks to fuse both RGB and event data.
Extensive experiments on both FELT and RGB-T tracking dataset LasHeR fully
validated the effectiveness of our model. The dataset and source code can be
found at \url{https://github.com/Event-AHU/FELT_SOT_Benchmark}.
- Abstract(参考訳): 現在のイベント/フレームイベントベースのトラッカーは短期追跡データセットの評価を受けているが、実世界のシナリオの追跡には長期追跡が必要であり、これらのシナリオにおける既存のトラッキングアルゴリズムのパフォーマンスは未だ不明である。
本稿では, FELT と呼ばれる, 長期かつ大規模で大規模な単一オブジェクト追跡データセットを提案する。
742の動画と1,594,474のrgbフレームとイベントストリームペアがあり、これまでで最大のフレームイベントトラッキングデータセットとなっている。
今後比較する作業のために、データセット上で15のベースライントラッカーを再トレーニングし、評価します。
さらに重要なことは、RGBフレームとイベントストリームが自然に不完全であることは、困難な要因と空間的に疎いイベントフローの影響により明らかである。
そこで本稿では,rgbとイベントデータを融合するマルチヘッド自己アテンションブロックに現代的なホップフィールド層を導入することで,新たな連想メモリトランスフォーマーネットワークを提案する。
FELTとRGB-T追跡データセットLasHeRの大規模な実験により,本モデルの有効性が完全に検証された。
データセットとソースコードは \url{https://github.com/Event-AHU/FELT_SOT_Benchmark} で見ることができる。
関連論文リスト
- Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking [9.353589376846902]
線形複雑ビジョン・マンバネットワークに基づく効率的なRGB-Eventオブジェクト追跡フレームワークを提案する。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/Mamba_FETrack.comで公開される。
論文 参考訳(メタデータ) (2025-06-30T12:24:01Z) - Adversarial Attack for RGB-Event based Visual Object Tracking [39.35874495297647]
RGB-Eventビジュアルトラッキングのためのクロスモーダル逆アタックアルゴリズムを提案する。
広範に使用されている3つのRGB-Event Trackingデータセットに対する攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-04-19T23:35:19Z) - BlinkTrack: Feature Tracking over 100 FPS via Events and Images [50.98675227695814]
本稿では,RGB画像とイベントデータを統合した新しいフレームワークであるBlinkTrackを提案する。
本手法は,従来のカルマンフィルタを学習ベースのフレームワークに拡張し,イベントおよびイメージの分岐において微分可能なカルマンフィルタを利用する。
実験の結果、BlinkTrackは既存のイベントベースの手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-09-26T15:54:18Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - GLEN: General-Purpose Event Detection for Thousands of Types [80.99866527772512]
汎用的なイベント検出データセットGLENを構築し、205Kイベントの参照を3,465種類の異なるタイプでカバーしています。
GLENはオントロジーにおいて、今日の最大のイベントデータセットよりも20倍大きい。
また,GLENの大規模化に特化して設計された多段階イベント検出モデルCEDARを提案する。
論文 参考訳(メタデータ) (2023-03-16T05:36:38Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - RGBD1K: A Large-scale Dataset and Benchmark for RGB-D Object Tracking [30.448658049744775]
注釈付きRGB-D追跡データが限られているため、最先端のRGB-Dトラッカーのほとんどは、高性能なRGB-Dトラッカーの単純な拡張である。
データセット不足問題に対処するため,RGBD1Kという新しいRGB-Dデータセットを報告した。
論文 参考訳(メタデータ) (2022-08-21T03:07:36Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse
Motion [56.1428110894411]
マルチヒューマントラッキングのための大規模データセットを提案する。
データセットには、主にグループダンスビデオが含まれているので、私たちはそれを"DanceTrack"と名付けます。
当社のデータセット上でいくつかの最先端トラッカーをベンチマークし、既存のベンチマークと比較した場合、DanceTrackの大幅なパフォーマンス低下を観察します。
論文 参考訳(メタデータ) (2021-11-29T16:49:06Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Multi-Object Tracking and Segmentation with a Space-Time Memory Network [12.043574473965318]
トラックレットを関連づける新しいメモリベース機構に基づく多目的追跡とセグメンテーションの手法を提案する。
提案するトラッカーであるMeNToSは、特に長期データアソシエーションの問題に対処する。
論文 参考訳(メタデータ) (2021-10-21T17:13:17Z) - Discriminative Appearance Modeling with Multi-track Pooling for
Real-time Multi-object Tracking [20.66906781151]
マルチオブジェクトトラッキングでは、トラッカーはそのメモリ内にシーンの各オブジェクトの外観と動き情報を保持する。
多くのアプローチは、それぞれのターゲットを分離してモデル化し、シーン内のすべてのターゲットを使用してメモリを共同で更新する能力がない。
オンライン上でハードトラッキングのエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-28T18:12:39Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。