論文の概要: CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event
Cameras
- arxiv url: http://arxiv.org/abs/2401.02826v1
- Date: Fri, 5 Jan 2024 14:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 14:50:28.788574
- Title: CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event
Cameras
- Title(参考訳): CRSOT:不整列フレームとイベントカメラを用いたクロスリゾリューションオブジェクトトラッキング
- Authors: Yabin Zhu, Xiao Wang, Chenglong Li, Bo Jiang, Lin Zhu, Zhixiang Huang,
Yonghong Tian, Jin Tang
- Abstract要約: 既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集される。
我々は、特別に構築されたデータ取得システムを用いて収集された、最初の不整合フレームイベントデータセットCRSOTを構築した。
ゆるやかなRGBイベントデータを用いても、ロバストなトラッキングを実現することのできる、新しい非整列オブジェクト追跡フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.699819213559515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing datasets for RGB-DVS tracking are collected with DVS346 camera and
their resolution ($346 \times 260$) is low for practical applications.
Actually, only visible cameras are deployed in many practical systems, and the
newly designed neuromorphic cameras may have different resolutions. The latest
neuromorphic sensors can output high-definition event streams, but it is very
difficult to achieve strict alignment between events and frames on both spatial
and temporal views. Therefore, how to achieve accurate tracking with unaligned
neuromorphic and visible sensors is a valuable but unresearched problem. In
this work, we formally propose the task of object tracking using unaligned
neuromorphic and visible cameras. We build the first unaligned frame-event
dataset CRSOT collected with a specially built data acquisition system, which
contains 1,030 high-definition RGB-Event video pairs, 304,974 video frames. In
addition, we propose a novel unaligned object tracking framework that can
realize robust tracking even using the loosely aligned RGB-Event data.
Specifically, we extract the template and search regions of RGB and Event data
and feed them into a unified ViT backbone for feature embedding. Then, we
propose uncertainty perception modules to encode the RGB and Event features,
respectively, then, we propose a modality uncertainty fusion module to
aggregate the two modalities. These three branches are jointly optimized in the
training phase. Extensive experiments demonstrate that our tracker can
collaborate the dual modalities for high-performance tracking even without
strictly temporal and spatial alignment. The source code, dataset, and
pre-trained models will be released at
https://github.com/Event-AHU/Cross_Resolution_SOT.
- Abstract(参考訳): 既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集され、その解像度(346 \times 260$)は実用アプリケーションでは低い。
実際、可視カメラのみが多くの実用システムに配備されており、新しく設計されたニューロモルフィックカメラは解像度が異なる可能性がある。
最新のニューロモルフィックセンサーは高精細なイベントストリームを出力できるが、空間的および時間的ビューの両方でイベントとフレームの厳密なアライメントを達成することは極めて困難である。
したがって、非整合型および可視性センサーによる正確な追跡を実現するには、価値があるが研究されていない問題である。
本研究では,非整合型ニューロモルフィックカメラと可視カメラを用いた物体追跡タスクを正式に提案する。
我々は,1030の高精細RGB-Eventビデオペア,304,974の動画フレームを含む特別に構築されたデータ取得システムを用いて収集された,最初の不整合フレームイベントデータセットCRSOTを構築した。
さらに,ゆるやかなRGBイベントデータを用いてもロバストなトラッキングを実現することのできる,非整列オブジェクト追跡フレームワークを提案する。
具体的には、RGBデータとイベントデータのテンプレートと検索領域を抽出し、機能埋め込みのための統合ViTバックボーンにフィードする。
そして,RGBとイベントの特徴を符号化する不確実性認識モジュールを提案し,その2つのモダリティを集約するモダリティ不確実性融合モジュールを提案する。
これら3つのブランチは、トレーニングフェーズで共同最適化される。
広汎な実験により, 時間的・空間的アライメントを厳密に行わずとも, トラッカーが協調して高性能な追跡を行うことができた。
ソースコード、データセット、事前トレーニングされたモデルはhttps://github.com/Event-AHU/Cross_Resolution_SOTでリリースされる。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - ARKitTrack: A New Diverse Dataset for Tracking Using Mobile RGB-D Data [75.73063721067608]
我々は,AppleのiPhoneおよびiPadに搭載されたコンシューマグレードのLiDARスキャナーによってキャプチャされた静的および動的シーンの両方を対象とした新しいRGB-D追跡データセットを提案する。
ARKitTrackには300のRGB-Dシーケンス、455のターゲット、229.7Kのビデオフレームが含まれている。
詳細な実験分析により,ARKitTrackデータセットがRGB-D追跡を著しく促進し,提案手法が芸術的状況と良好に比較できることが確認された。
論文 参考訳(メタデータ) (2023-03-24T09:51:13Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Tracking Fast by Learning Slow: An Event-based Speed Adaptive Hand
Tracker Leveraging Knowledge in RGB Domain [4.530678016396477]
高時間分解能・ダイナミックレンジのセンサであるイベントカメラは,低出力・低消費電力の課題に自然に適している。
本研究では,イベントカメラに基づくハンドトラッキング問題を解決するために,イベントベースの速度適応ハンドトラッカー(ESAHT)を開発した。
我々のソリューションは、高速ハンドトラッキングタスクにおけるRGBベースと、それ以前のイベントベースのソリューションよりも優れており、コードとデータセットが公開されます。
論文 参考訳(メタデータ) (2023-02-28T09:18:48Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Cross-Modal Object Tracking: Modality-Aware Representations and A
Unified Benchmark [8.932487291107812]
多くの視覚系では、視覚的トラッキングはしばしばRGB画像シーケンスに基づいており、一部のターゲットは低照度環境では無効である。
追従過程におけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識したターゲット表現を学習する新しいアルゴリズムを提案する。
無料の学術的利用のためにデータセットをリリースし、データセットのダウンロードリンクとコードを近くリリースします。
論文 参考訳(メタデータ) (2021-11-08T03:58:55Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。