論文の概要: Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline
- arxiv url: http://arxiv.org/abs/2309.14611v1
- Date: Tue, 26 Sep 2023 01:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:16:12.765691
- Title: Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline
- Title(参考訳): イベントストリームベースのビジュアルオブジェクト追跡:高解像度ベンチマークデータセットと新しいベースライン
- Authors: Xiao Wang, Shiao Wang, Chuanming Tang, Lin Zhu, Bo Jiang, Yonghong
Tian, Jin Tang
- Abstract要約: 既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
- 参考スコア(独自算出の注目度): 38.42400442371156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking using bio-inspired event cameras has drawn more and more attention
in recent years. Existing works either utilize aligned RGB and event data for
accurate tracking or directly learn an event-based tracker. The first category
needs more cost for inference and the second one may be easily influenced by
noisy events or sparse spatial resolution. In this paper, we propose a novel
hierarchical knowledge distillation framework that can fully utilize
multi-modal / multi-view information during training to facilitate knowledge
transfer, enabling us to achieve high-speed and low-latency visual tracking
during testing by using only event signals. Specifically, a teacher
Transformer-based multi-modal tracking framework is first trained by feeding
the RGB frame and event stream simultaneously. Then, we design a new
hierarchical knowledge distillation strategy which includes pairwise
similarity, feature representation, and response maps-based knowledge
distillation to guide the learning of the student Transformer network.
Moreover, since existing event-based tracking datasets are all low-resolution
($346 \times 260$), we propose the first large-scale high-resolution ($1280
\times 720$) dataset named EventVOT. It contains 1141 videos and covers a wide
range of categories such as pedestrians, vehicles, UAVs, ping pongs, etc.
Extensive experiments on both low-resolution (FE240hz, VisEvent, COESOT), and
our newly proposed high-resolution EventVOT dataset fully validated the
effectiveness of our proposed method. The dataset, evaluation toolkit, and
source code are available on
\url{https://github.com/Event-AHU/EventVOT_Benchmark}
- Abstract(参考訳): 近年,バイオインスパイアされたイベントカメラによる追跡が注目されている。
既存の作業は、整列RGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
第1のカテゴリは推論により多くのコストを必要とし、第2のカテゴリはノイズのある事象やスパース空間分解の影響を受けやすい。
本稿では,学習中に多モード/多視点情報を完全に活用して知識伝達を容易にする階層型知識蒸留フレームワークを提案する。
具体的には、教師トランスフォーマーベースのマルチモーダルトラッキングフレームワークをまず、rgbフレームとイベントストリームを同時に供給してトレーニングする。
次に, 学生トランスフォーマーネットワークの学習を導くために, 対関係の類似性, 特徴表現, 応答マップに基づく知識蒸留を含む新しい階層的知識蒸留戦略を設計する。
さらに、既存のイベントベースのトラッキングデータセットはすべて低解像度(346 \times 260$)であるため、EventVOTと呼ばれる最初の大規模な高解像度(1280 \times 720$)データセットを提案する。
1141本のビデオがあり、歩行者、車両、uav、ピンポンなど幅広いカテゴリーをカバーしている。
低分解能(FE240hz, VisEvent, COESOT)と新たに提案した高分解能EventVOTデータセットのどちらも,提案手法の有効性を十分に検証した。
データセット、評価ツールキット、ソースコードは \url{https://github.com/Event-AHU/EventVOT_Benchmark} で入手できる。
関連論文リスト
- Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline [37.06330707742272]
まず, FELTと呼ばれる, 長期的かつ大規模な単一オブジェクト追跡データセットを提案する。
742の動画と1,594,474のRGBフレームとイベントストリームペアが含まれており、これまでで最大のフレームイベント追跡データセットになっている。
本稿では,RGBとイベントデータの両方を融合させるために,現代的なホップフィールド層をマルチヘッド自己アテンションブロックに導入することで,統一バックボーンとして新しい連想メモリトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T08:49:50Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。