論文の概要: Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation
- arxiv url: http://arxiv.org/abs/2303.09919v1
- Date: Fri, 17 Mar 2023 12:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:43:48.926222
- Title: Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation
- Title(参考訳): 学習可能な表現を用いたイベントベースオブジェクト検出のためのデュアルメモリ集約ネットワーク
- Authors: Dongsheng Wang, Xu Jia, Yang Zhang, Xinyu Zhang, Yaoyuan Wang, Ziyang
Zhang, Dong Wang, Huchuan Lu
- Abstract要約: イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
- 参考スコア(独自算出の注目度): 79.02808071245634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event-based cameras are bio-inspired sensors that capture brightness change
of every pixel in an asynchronous manner. Compared with frame-based sensors,
event cameras have microsecond-level latency and high dynamic range, hence
showing great potential for object detection under high-speed motion and poor
illumination conditions. Due to sparsity and asynchronism nature with event
streams, most of existing approaches resort to hand-crafted methods to convert
event data into 2D grid representation. However, they are sub-optimal in
aggregating information from event stream for object detection. In this work,
we propose to learn an event representation optimized for event-based object
detection. Specifically, event streams are divided into grids in the x-y-t
coordinates for both positive and negative polarity, producing a set of pillars
as 3D tensor representation. To fully exploit information with event streams to
detect objects, a dual-memory aggregation network (DMANet) is proposed to
leverage both long and short memory along event streams to aggregate effective
information for object detection. Long memory is encoded in the hidden state of
adaptive convLSTMs while short memory is modeled by computing spatial-temporal
correlation between event pillars at neighboring time intervals. Extensive
experiments on the recently released event-based automotive detection dataset
demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
フレームベースのセンサーと比較すると、イベントカメラはマイクロ秒レベルのレイテンシと高いダイナミックレンジを有しており、高速動作と照明条件の悪い環境での物体検出には大きな可能性を秘めている。
イベントストリームによるスパーシリティと非同期性のため、既存のアプローチの多くは、イベントデータを2Dグリッド表現に変換する手作りの手法を採用している。
しかし、それらはオブジェクト検出のためにイベントストリームから情報を集約するサブ最適である。
本研究では,イベントベースオブジェクト検出に最適化されたイベント表現の学習を提案する。
具体的には、イベントストリームは正極性と負極性の両方のx-y-t座標の格子に分割され、3次元テンソル表現として一連の柱を生成する。
オブジェクトを検出するためにイベントストリームを用いた情報を完全に活用するために、イベントストリームに沿った長メモリと短メモリの両方を活用するために、デュアルメモリ集約ネットワーク(DMANet)が提案されている。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリは隣接する時間間隔でイベントピラー間の空間時間相関を計算することによってモデル化される。
最近リリースされたイベントベース自動車検知データセットの大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- Rethinking Event-based Human Pose Estimation with 3D Event
Representations [26.592295349210787]
イベントカメラは、困難なコンテキストをナビゲートするための堅牢なソリューションを提供する。
我々は、Rasterized Event Point CloudとDecoupled Event Voxelの2つの3Dイベント表現を紹介します。
EV-3DPW実験により,従来のRGB画像やイベントフレーム技術と比較して,提案手法のロバスト性を示した。
論文 参考訳(メタデータ) (2023-11-08T10:45:09Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning
on Event Streams [23.872611710730865]
イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。
本研究では,イベントストリーム上での表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しい注意認識モデルを開発した。
オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Motion Robust High-Speed Light-Weighted Object Detection With Event
Camera [24.192961837270172]
イベントデータをよりよく活用する動き堅牢で高速な検出パイプラインを提案する。
2つの典型的な実景イベントカメラオブジェクト検出データセットの実験により,本手法は精度,効率,パラメータ数において競合することを示した。
論文 参考訳(メタデータ) (2022-08-24T15:15:24Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - Differentiable Event Stream Simulator for Non-Rigid 3D Tracking [82.56690776283428]
我々の微分可能シミュレータは、イベントストリームから変形可能なオブジェクトの非剛性3D追跡を可能にする。
様々な種類の非剛体物体に対するアプローチの有効性を示し, 既存の非剛体3次元追跡手法と比較した。
論文 参考訳(メタデータ) (2021-04-30T17:58:07Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - EBBINNOT: A Hardware Efficient Hybrid Event-Frame Tracker for Stationary
Dynamic Vision Sensors [5.674895233111088]
本稿では,静止型ニューロモルフィックセンサによって記録された物体を検知・追跡するための複合イベントフレーム手法を提案する。
静的DVSの背景除去特性を活用するために,フレーム内のイベントの有無を通知するイベントベースバイナリ画像生成を提案する。
静止DVSベースのトラフィック監視ソリューションが、同時に記録されたRGBフレームベースの方法と比較されるのは、これが初めてである。
論文 参考訳(メタデータ) (2020-05-31T03:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。