論文の概要: VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows
- arxiv url: http://arxiv.org/abs/2108.05015v1
- Date: Wed, 11 Aug 2021 03:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:42:40.617881
- Title: VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows
- Title(参考訳): VisEvent: フレームとイベントフローのコラボレーションによる信頼性の高いオブジェクトトラッキング
- Authors: Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li,
Yaowei Wang, Yonghong Tian, Feng Wu
- Abstract要約: このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
イベントフローをイベントイメージに変換し、現在の単一モードトラッカーを拡張することで、30以上のベースラインメソッドを構築します。
- 参考スコア(独自算出の注目度): 55.537269580245784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from visible cameras which record intensity images frame by frame,
the biologically inspired event camera produces a stream of asynchronous and
sparse events with much lower latency. In practice, the visible cameras can
better perceive texture details and slow motion, while event cameras can be
free from motion blurs and have a larger dynamic range which enables them to
work well under fast motion and low illumination. Therefore, the two sensors
can cooperate with each other to achieve more reliable object tracking. In this
work, we propose a large-scale Visible-Event benchmark (termed VisEvent) due to
the lack of a realistic and scaled dataset for this task. Our dataset consists
of 820 video pairs captured under low illumination, high speed, and background
clutter scenarios, and it is divided into a training and a testing subset, each
of which contains 500 and 320 videos, respectively. Based on VisEvent, we
transform the event flows into event images and construct more than 30 baseline
methods by extending current single-modality trackers into dual-modality
versions. More importantly, we further build a simple but effective tracking
algorithm by proposing a cross-modality transformer, to achieve more effective
feature fusion between visible and event data. Extensive experiments on the
proposed VisEvent dataset, and two simulated datasets (i.e., OTB-DVS and
VOT-DVS), validated the effectiveness of our model. The dataset and source code
will be available at our project page:
\url{https://sites.google.com/view/viseventtrack/}.
- Abstract(参考訳): フレームごとの強度画像を記録する可視カメラとは異なり、生物学的にインスパイアされたイベントカメラは、より低レイテンシで非同期でスパースなイベントのストリームを生成する。
実際には、目に見えるカメラはテクスチャの詳細やスローモーションをよりよく知覚できるが、イベントカメラは動きのぼやけがなく、ダイナミックレンジが大きく、高速な動きと低照度でうまく機能する。
したがって、2つのセンサは互いに協調してより信頼性の高い物体追跡を実現することができる。
本研究では,このタスクに現実的でスケールドなデータセットが欠如していることから,大規模可視イベントベンチマーク(visevent)を提案する。
我々のデータセットは、低照度、高速、バックグラウンドの乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されており、それぞれ500と320の動画を含むトレーニングとテストサブセットに分割されている。
viseventに基づいて、イベントフローをイベントイメージに変換し、現在のシングルモダリティトラッカをデュアルモダリティバージョンに拡張して、30以上のベースラインメソッドを構築します。
さらに,可視データとイベントデータとのより効率的な融合を実現するために,クロスモダリティトランスを提案すれば,よりシンプルで効果的なトラッキングアルゴリズムを構築することができる。
提案するviseventデータセットと2つのシミュレーションデータセット(otb-dvsとvot-dvs)に関する広範な実験により,本モデルの有効性が検証された。
データセットとソースコードは、私たちのプロジェクトページで利用可能になります。
関連論文リスト
- EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - BlinkTrack: Feature Tracking over 100 FPS via Events and Images [50.98675227695814]
本稿では,RGB画像とイベントデータを統合した新しいフレームワークであるBlinkTrackを提案する。
本手法は,従来のカルマンフィルタを学習ベースのフレームワークに拡張し,イベントおよびイメージの分岐において微分可能なカルマンフィルタを利用する。
実験の結果、BlinkTrackは既存のイベントベースの手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-09-26T15:54:18Z) - CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event
Cameras [43.699819213559515]
既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集される。
我々は、特別に構築されたデータ取得システムを用いて収集された、最初の不整合フレームイベントデータセットCRSOTを構築した。
ゆるやかなRGBイベントデータを用いても、ロバストなトラッキングを実現することのできる、新しい非整列オブジェクト追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T14:20:22Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - Learning Optical Flow from Event Camera with Rendered Dataset [45.4342948504988]
コンピュータグラフィックスモデルを用いて物理的に正しいイベントフローデータセットを描画する。
特に,Blenderによって室内および屋外の3Dシーンを,リッチなシーン内容のバリエーションで生成する。
論文 参考訳(メタデータ) (2023-03-20T10:44:32Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - 3D-FlowNet: Event-based optical flow estimation with 3D representation [2.062593640149623]
イベントベースのカメラは、高速モーション検出などの重要なタスクのためにフレームベースのカメラ制限を克服することができる。
ディープニューラルネットワークは、非同期で離散的なイベントデータを扱うようには適していない。
本稿では,3次元入力表現を処理し,光フロー推定を出力できる新しいネットワークアーキテクチャである3D-FlowNetを提案する。
論文 参考訳(メタデータ) (2022-01-28T17:28:15Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。