論文の概要: No Dense Tensors Needed: Fully Sparse Object Detection on Event-Camera Voxel Grids
- arxiv url: http://arxiv.org/abs/2603.21638v1
- Date: Mon, 23 Mar 2026 07:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.535038
- Title: No Dense Tensors Needed: Fully Sparse Object Detection on Event-Camera Voxel Grids
- Title(参考訳): 不要なテンソル:イベントカメラボクセルグリッド上での完全なスパース物体検出
- Authors: Mohamad Yazan Sadoun, Sarah Sharif, Yaser Mike Banad,
- Abstract要約: イベントカメラは、小型で高速で動くドローンを検出するのに適した、非同期で高ダイナミックなストリームを生成する。
ほとんどの事象ベースの検出器はスパース事象ストリームを密度の高いテンソルに変換し、ニューロモルフィックセンシングの表現効率を放棄する。
SparseVoxelDetは,バックボーンの特徴抽出,ピラミッド融合,検出ヘッドがすべて占有されたボクセル位置のみで動作する,イベントカメラ用初の完全スパース物体検出器である。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras produce asynchronous, high-dynamic-range streams well suited for detecting small, fast-moving drones, yet most event-based detectors convert the sparse event stream into dense tensors, discarding the representational efficiency of neuromorphic sensing. We propose SparseVoxelDet, to our knowledge the first fully sparse object detector for event cameras, in which backbone feature extraction, feature pyramid fusion, and the detection head all operate exclusively on occupied voxel positions through 3D sparse convolutions; no dense feature tensor is instantiated at any stage of the pipeline. On the FRED benchmark (629,832 annotated frames), SparseVoxelDet achieves 83.38% mAP at 50 while processing only 14,900 active voxels per frame (0.23% of the T.H.W grid), compared to 409,600 pixels for the dense YOLOv11 baseline (87.68% mAP at 50). Relaxing the IoU threshold from 0.50 to 0.40 recovers mAP to 89.26%, indicating that the remaining accuracy gap is dominated by box regression precision rather than detection capability. The sparse representation yields 858 times GPU memory compression and 3,670 times storage reduction relative to the equivalent dense 3D voxel tensor, with data-structure size that scales with scene dynamics rather than sensor resolution. Error forensics across 119,459 test frames confirms that 71 percent of failures are localization near-misses rather than missed targets. These results demonstrate that native sparse processing is a viable paradigm for event-camera object detection, exploiting the structural sparsity of neuromorphic sensor data without requiring neuromorphic computing hardware, and providing a framework whose representation cost is governed by scene activity rather than pixel count, a property that becomes increasingly valuable as event cameras scale to higher resolutions.
- Abstract(参考訳): イベントカメラは、小型で高速に動くドローンを検出するのに適した、非同期で高ダイナミックなストリームを生成するが、ほとんどのイベントベースの検出器はスパースイベントストリームを密度の高いテンソルに変換し、ニューロモルフィックセンシングの表現効率を放棄する。
我々は,SparseVoxelDetを提案する。SparseVoxelDetは,バックボーンの特徴抽出,特徴ピラミッド融合,検出ヘッドが3次元スパース畳み込みによる占有ボクセル位置のみに作用するイベントカメラのための,最初の完全スパース物体検出器であり,パイプラインのどの段階でも高密度な特徴テンソルがインスタンス化されない。
FREDベンチマーク(629,832の注釈付きフレーム)では、SparseVoxelDetは50で83.38% mAPを達成し、1フレームあたり14,900のアクティブなボクセル(T.H.Wグリッドの0.23%)しか処理せず、密度の高いYOLOv11ベースライン(50で87.68% mAP)では409,600ピクセルである。
IoU閾値を0.50から0.40に緩和すると、mAPは89.26%に回復する。
スパース表現は858倍のGPUメモリ圧縮と3,670倍のストレージ削減を同等の高密度な3Dボクセルテンソルに対して生成する。
119,459の試験フレームにわたる誤りの鑑識は、失敗の71%が、見逃したターゲットではなく、ほぼミスに近いローカライゼーションであることを確認した。
これらの結果から, ネイティブスパース処理は, イベントカメラのオブジェクト検出に有効なパラダイムであり, ニューロモルフィック・コンピューティング・ハードウェアを必要とせず, ニューロモルフィック・センサ・データの構造的疎結合を生かし, イベントカメラが高解像度にスケールするにつれてますます価値が増している特性である画素数ではなくシーン・アクティビティによって表現コストが支配されるフレームワークを提供することが示唆された。
関連論文リスト
- An Event-Based Opto-Tactile Skin [6.8948204974942255]
本稿では, 軟質大面積皮膚に対するニューロモルフィック, イベント駆動触覚センシングシステムについて述べる。
Dynamic Vision Sensors (DVS)をベースとし、柔軟なシリコン光導波路の皮膚と統合されている。
このような設計は、明るさの変化が検出されるにつれて事象を発生させ、三角測量により2次元皮膚表面の圧力位置を推定する。
論文 参考訳(メタデータ) (2026-01-07T13:17:20Z) - Interpolation-Based Event Visual Data Filtering Algorithms [0.0]
本稿では,有効信号の大部分を保存しながら,約99%のノイズを除去できるイベントデータを提案する。
提案手法では、約30KBのメモリを1280 x 720の解像度のセンサーに使用し、組込みデバイスの実装に適している。
論文 参考訳(メタデータ) (2025-07-02T10:13:20Z) - SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - PLEIADES: Building Temporal Kernels with Orthogonal Polynomials [6.2921559513184695]
本稿では,基本関数から発生する時間的カーネルを含むPLEIA(Lynomial Expansion In Adaptive Distributed Event Systems)というニューラルネットワークのクラスを紹介する。
低レイテンシでオンライン分類と検出を行うために、これらのネットワークをイベントベースのデータで相互接続することに重点を置いている。
論文 参考訳(メタデータ) (2024-05-20T17:06:24Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Fewer is More: Efficient Object Detection in Large Aerial Images [59.683235514193505]
本稿では,検出者がより少ないパッチに注目するのに対して,より効率的な推論とより正確な結果を得るのに役立つObjectness Activation Network(OAN)を提案する。
OANを用いて、5つの検出器は3つの大規模な空中画像データセットで30.0%以上のスピードアップを取得する。
我々はOANをドライブシーン物体検出と4Kビデオ物体検出に拡張し,検出速度をそれぞれ112.1%,75.0%向上させた。
論文 参考訳(メタデータ) (2022-12-26T12:49:47Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Operationalizing Convolutional Neural Network Architectures for
Prohibited Object Detection in X-Ray Imagery [15.694880385913534]
本稿では,近年の2つのエンドツーエンドオブジェクト検出CNNアーキテクチャ,Cascade R-CNNとFreeAnchorの実現可能性について検討する。
パラメータが少なく訓練時間も少ないため、FreeAnchorは13 fps (3.9 ms)の最大検出速度を達成している。
CNNモデルは、損失のある圧縮に対してかなりのレジリエンスを示し、JPEG圧縮レベル50においてmAPの1.1%しか減少しない。
論文 参考訳(メタデータ) (2021-10-10T21:20:04Z) - Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。
計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。
アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文 参考訳(メタデータ) (2021-08-24T03:20:32Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。