論文の概要: Rethinking Event-Based Object Dtection through Representation-Level Temporal Aggregation and Model-Level Hypergraph Reasoning
- arxiv url: http://arxiv.org/abs/2605.08825v2
- Date: Wed, 13 May 2026 12:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.82051
- Title: Rethinking Event-Based Object Dtection through Representation-Level Temporal Aggregation and Model-Level Hypergraph Reasoning
- Title(参考訳): 表現レベルテンポラルアグリゲーションとモデルレベルハイパーグラフ推論によるイベントベースオブジェクト検出の再考
- Authors: Meisen Wang, Hao Deng, Wei Bao, Ma Yuanxiao, Chengjie Wang, Zhiqiang Tian, Shaoyi Du, Siqi Li,
- Abstract要約: イベントカメラはマイクロ秒レベルの時間分解能、低レイテンシ、高ダイナミックレンジを提供する。
Event Dual Temporal-Relational Aggregation Detector (Ev-DTAD)は、表現レベルの時間エンコーディングとモデルレベルの時間-ハイパーグラフ推論を統合する。
Ev-DTADは、コンパクトな時間的表現と時間的ハイパーグラフの特徴的推論の相補性を検証し、競争精度と効率のトレードオフを実現する。
- 参考スコア(独自算出の注目度): 65.08890312027314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras provide microsecond-level temporal resolution, low latency, and high dynamic range, offering potential for perception under fast motion and challenging illumination conditions. However, existing Event-based Object Detection (EOD) methods face limitations at both the representation and model levels: prior event representations usually encode temporal information indirectly through redundant structures, while detection models struggle to explicitly aggregate fragmented event responses into coherent high-order object features. To address these limitations, we present Event Dual Temporal-Relational Aggregation Detector (Ev-DTAD), a unified EOD framework that integrates representation-level temporal encoding with model-level temporal-hypergraph reasoning. Specifically, we introduce Hierarchical Temporal Aggregation (HTA), a compact three-channel pseudo-RGB representation that explicitly embeds temporal information across intra- and inter-window events. To further enhance detection under sparse and fragmented event responses, we propose Frequency-aware Hypergraph Temporal Fusion (FHTF), which refines multi-scale event features through temporal evolution modeling and high-order relational reasoning. Extensive experiments on Gen1 (+0.8 mAP and 1.7$\times$ faster), 1Mpx/Gen4 (+0.5 mAP and 1.6$\times$ faster), and eTraM (+3.0 mAP and 2.0$\times$ faster) demonstrate that Ev-DTAD achieves a competitive accuracy-efficiency trade-off, validating the complementarity between compact temporal representation and temporal-hypergraph feature reasoning.
- Abstract(参考訳): イベントカメラはマイクロ秒レベルの時間分解能、低レイテンシ、高ダイナミックレンジを提供する。
しかしながら、既存のEvent-based Object Detection (EOD)メソッドは、表現レベルとモデルレベルの両方で制限に直面している。
これらの制約に対処するために、表現レベルの時間エンコーディングとモデルレベルの時間-ハイパーグラフ推論を統合する統合EDDフレームワークであるEvent Dual Temporal-Relational Aggregation Detector (Ev-DTAD)を提案する。
具体的には,HTA(Hierarchical Temporal Aggregation, 階層的テンポラルアグリゲーション)を導入する。
周波数対応ハイパーグラフテンポラルフュージョン(FHTF)を提案し,時間進化モデリングと高次リレーショナル推論によりマルチスケールイベント特徴を洗練する。
Gen1 (+0.8 mAP と 1.7$\times$ faster), 1Mpx/Gen4 (+0.5 mAP と 1.6$\times$ faster), and eTraM (+3.0 mAP と 2.0$\times$ faster) に関する大規模な実験により、Ev-DTAD は、コンパクトな時間的表現と時間的ハイパーグラフの特徴推論の相補性を検証し、競争的な精度と効率のトレードオフを達成することを示した。
関連論文リスト
- Towards Video Anomaly Detection from Event Streams: A Baseline and Benchmark Datasets [71.53287557600177]
イベントベースの異常検出を統一研究の方向性として確立するための第一歩を踏み出す。
まず、同期イベントとRGB記録を特徴とする、ビデオ異常検出のための複数のイベントストリームベースのベンチマークを構築した。
次に,EVent中心のビデオ異常検出フレームワークであるEWADを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:33Z) - DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - Learning Flow-Guided Registration for RGB-Event Semantic Segmentation [22.996619370156584]
イベントカメラは、RGBセンサーを補完するマイクロ秒レベルのモーションキューをキャプチャする。
RGB-Eventセグメンテーションを融合から登録に再キャストする。
非対称なモーダル間の対応を適応的にマッチングする新しいフロー誘導双方向フレームワークであるBRENetを提案する。
論文 参考訳(メタデータ) (2025-05-02T19:19:58Z) - EHGCN: Hierarchical Euclidean-Hyperbolic Fusion via Motion-Aware GCN for Hybrid Event Stream Perception [57.54227977352417]
イベントカメラは、知覚タスクのための高速なイベントストリームを出力する。
ユークリッド空間と双曲空間の両方においてイベントストリームを知覚するためのEHGCNという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-23T11:01:03Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。