論文の概要: Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention
- arxiv url: http://arxiv.org/abs/2603.06228v1
- Date: Fri, 06 Mar 2026 12:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.70445
- Title: Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention
- Title(参考訳): 空間スパース線形アテンションを用いた低レイテンシイベントベース物体検出
- Authors: Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubić, Davide Scaramuzza, Wenhui Wang,
- Abstract要約: イベントカメラは、空間空間の間隔と高時間分解能を備えたシーケンシャルな視覚データを提供するため、低遅延物体検出には魅力的である。
既存の非同期イベントベースのニューラルネットワークは、イベント単位の予測を更新することで、この低レイテンシの利点を実現するが、それでも2つのボトルネックに悩まされている。
空間分割型状態分解とスキャッタ・コンピュテート・ガザの訓練手順を導入し,状態レベルの疎性も可能とした空間分割線形注意(SSLA)を提案する。
- 参考スコア(独自算出の注目度): 20.653155039432463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras provide sequential visual data with spatial sparsity and high temporal resolution, making them attractive for low-latency object detection. Existing asynchronous event-based neural networks realize this low-latency advantage by updating predictions event-by-event, but still suffer from two bottlenecks: recurrent architectures are difficult to train efficiently on long sequences, and improving accuracy often increases per-event computation and latency. Linear attention is appealing in this setting because it supports parallel training and recurrent inference. However, standard linear attention updates a global state for every event, yielding a poor accuracy-efficiency trade-off, which is problematic for object detection, where fine-grained representations and thus states are preferred. The key challenge is therefore to introduce sparse state activation that exploits event sparsity while preserving efficient parallel training. We propose Spatially-Sparse Linear Attention (SSLA), which introduces a mixture-of-spaces state decomposition and a scatter-compute-gather training procedure, enabling state-level sparsity as well as training parallelism. Built on SSLA, we develop an end-to-end asynchronous linear attention model, SSLA-Det, for event-based object detection. On Gen1 and N-Caltech101, SSLA-Det achieves state-of-the-art accuracy among asynchronous methods, reaching 0.375 mAP and 0.515 mAP, respectively, while reducing per-event computation by more than 20 times compared to the strongest prior asynchronous baseline, demonstrating the potential of linear attention for low-latency event-based vision.
- Abstract(参考訳): イベントカメラは、空間空間の間隔と高時間分解能を備えたシーケンシャルな視覚データを提供し、低遅延オブジェクト検出に魅力的なものとなる。
既存の非同期イベントベースのニューラルネットワークは、イベント単位の予測を更新することで、この低レイテンシの利点を実現するが、それでも2つのボトルネックに悩まされている。
この設定では、並列トレーニングと反復推論をサポートするため、線形注意が魅力的である。
しかし、標準的な線形アテンションは、すべての事象のグローバルな状態を更新し、精度の低いトレードオフをもたらす。
したがって、重要な課題は、効率的な並列トレーニングを保ちながらイベントのスパーシティを利用するスパースステートアクティベーションを導入することである。
本研究では,空間分割状態分解とスキャッタ・コンピュテート・ガザの訓練手順を導入し,空間分割線形注意(SSLA)を提案する。
SSLAに基づいて構築され、イベントベースのオブジェクト検出のためのエンドツーエンドの非同期線形アテンションモデルであるSSLA-Detを開発した。
Gen1とN-Caltech101では、SSLA-Detは、それぞれ0.375 mAPと0.515 mAPに達し、最強の非同期ベースラインに比べて、イベント単位の計算を20倍以上削減し、低レイテンシのイベントベースビジョンに対する線形アテンションの可能性を示している。
関連論文リスト
- Sparse Convolutional Recurrent Learning for Efficient Event-based Neuromorphic Object Detection [4.362139927929203]
ニューロモルフィックプロセッサ上でのイベントベースの効率的なオブジェクト検出のためのスパースイベントベース効率検出器(SEED)を提案する。
我々はスパース畳み込み再帰学習を導入し、これは再帰処理において92%以上の活性化間隔を達成し、スパースイベントデータに基づく推論のコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-06-16T12:54:27Z) - Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5465367830324905]
イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。
本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-14T14:48:11Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。
提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - EHGCN: Hierarchical Euclidean-Hyperbolic Fusion via Motion-Aware GCN for Hybrid Event Stream Perception [57.54227977352417]
イベントカメラは、知覚タスクのための高速なイベントストリームを出力する。
ユークリッド空間と双曲空間の両方においてイベントストリームを知覚するためのEHGCNという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-23T11:01:03Z) - Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。
バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文 参考訳(メタデータ) (2024-08-13T15:25:18Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。