論文の概要: Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation
- arxiv url: http://arxiv.org/abs/2303.09919v1
- Date: Fri, 17 Mar 2023 12:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:43:48.926222
- Title: Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation
- Title(参考訳): 学習可能な表現を用いたイベントベースオブジェクト検出のためのデュアルメモリ集約ネットワーク
- Authors: Dongsheng Wang, Xu Jia, Yang Zhang, Xinyu Zhang, Yaoyuan Wang, Ziyang
Zhang, Dong Wang, Huchuan Lu
- Abstract要約: イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
- 参考スコア(独自算出の注目度): 79.02808071245634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event-based cameras are bio-inspired sensors that capture brightness change
of every pixel in an asynchronous manner. Compared with frame-based sensors,
event cameras have microsecond-level latency and high dynamic range, hence
showing great potential for object detection under high-speed motion and poor
illumination conditions. Due to sparsity and asynchronism nature with event
streams, most of existing approaches resort to hand-crafted methods to convert
event data into 2D grid representation. However, they are sub-optimal in
aggregating information from event stream for object detection. In this work,
we propose to learn an event representation optimized for event-based object
detection. Specifically, event streams are divided into grids in the x-y-t
coordinates for both positive and negative polarity, producing a set of pillars
as 3D tensor representation. To fully exploit information with event streams to
detect objects, a dual-memory aggregation network (DMANet) is proposed to
leverage both long and short memory along event streams to aggregate effective
information for object detection. Long memory is encoded in the hidden state of
adaptive convLSTMs while short memory is modeled by computing spatial-temporal
correlation between event pillars at neighboring time intervals. Extensive
experiments on the recently released event-based automotive detection dataset
demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
フレームベースのセンサーと比較すると、イベントカメラはマイクロ秒レベルのレイテンシと高いダイナミックレンジを有しており、高速動作と照明条件の悪い環境での物体検出には大きな可能性を秘めている。
イベントストリームによるスパーシリティと非同期性のため、既存のアプローチの多くは、イベントデータを2Dグリッド表現に変換する手作りの手法を採用している。
しかし、それらはオブジェクト検出のためにイベントストリームから情報を集約するサブ最適である。
本研究では,イベントベースオブジェクト検出に最適化されたイベント表現の学習を提案する。
具体的には、イベントストリームは正極性と負極性の両方のx-y-t座標の格子に分割され、3次元テンソル表現として一連の柱を生成する。
オブジェクトを検出するためにイベントストリームを用いた情報を完全に活用するために、イベントストリームに沿った長メモリと短メモリの両方を活用するために、デュアルメモリ集約ネットワーク(DMANet)が提案されている。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリは隣接する時間間隔でイベントピラー間の空間時間相関を計算することによってモデル化される。
最近リリースされたイベントベース自動車検知データセットの大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - Event-to-Video Conversion for Overhead Object Detection [7.744259147081667]
イベントカメラは、特にオブジェクト検出などの複雑なタスクにおいて、下流の画像処理を複雑にする。
本稿では,高密度イベント表現とそれに対応するRGBフレームの間には,大きな差があることを述べる。
このギャップを埋めるために、イベントストリームをグレースケールのビデオに変換するイベント間変換モデルを適用する。
論文 参考訳(メタデータ) (2024-02-09T22:07:39Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Motion Robust High-Speed Light-Weighted Object Detection With Event
Camera [24.192961837270172]
イベントデータをよりよく活用する動き堅牢で高速な検出パイプラインを提案する。
2つの典型的な実景イベントカメラオブジェクト検出データセットの実験により,本手法は精度,効率,パラメータ数において競合することを示した。
論文 参考訳(メタデータ) (2022-08-24T15:15:24Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - EBBINNOT: A Hardware Efficient Hybrid Event-Frame Tracker for Stationary
Dynamic Vision Sensors [5.674895233111088]
本稿では,静止型ニューロモルフィックセンサによって記録された物体を検知・追跡するための複合イベントフレーム手法を提案する。
静的DVSの背景除去特性を活用するために,フレーム内のイベントの有無を通知するイベントベースバイナリ画像生成を提案する。
静止DVSベースのトラフィック監視ソリューションが、同時に記録されたRGBフレームベースの方法と比較されるのは、これが初めてである。
論文 参考訳(メタデータ) (2020-05-31T03:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。