論文の概要: EventPrune: Cascaded Event-Assisted Token Pruning for Efficient First-Person Dynamic Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2605.19506v1
- Date: Tue, 19 May 2026 08:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.19657
- Title: EventPrune: Cascaded Event-Assisted Token Pruning for Efficient First-Person Dynamic Spatial Reasoning
- Title(参考訳): EventPrune: 効率的なファーストパーソン動的空間推論のためのイベントアシスト型トーケンプルーニング
- Authors: Pengtao Ma, Ziliang Zhou, Ciyu Ruan, Haoyang Wang, Kaiyuan Li, Zihang Gong, Wenhua Ding, Chen Gao, Jingao Xu, Xinlei Chen,
- Abstract要約: 一対一の動的空間推論は連続的な動きと正確な幾何学的構造を追跡するモデルを必要とする。
既存のトークンプルーニングパラダイムは離散スナップショットに依存しており、推論に不可欠な動きや幾何学的な手がかりを保存できない。
我々はイベントカスケード・プルーニング(ECP)を提案し,イベントカメラからの高周波モーションキューを,ガイドトークン選択に先立って連続的なイベント誘導動作として活用する,最初のトレーニング不要なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.70087046150387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person dynamic spatial reasoning requires models to track continuous motion and precise geometric structure, but the quadratic attention cost of Transformer-based Video-LLMs makes dense visual tokens computationally expensive. Existing token pruning paradigms predominantly rely on discrete static snapshots, failing to preserve the motion and geometric cues essential for reasoning. We propose Event Cascade Pruning (ECP), to our knowledge the first training-free framework that leverages the high-frequency motion cues from event cameras as a continuous event-guided motion prior to guide token selection. ECP combines three stages: Event-Triggered Causal Sampling to anchor motion-informative keyframes, Event-guided Motion Saliency Filtering to suppress event-inactive visual tokens, and Event-Attention Ranking Fusion to calibrate spatial attention with motion-salient dynamics. With 80% visual token reduction, ECP outperforms the full-token baseline (37.62% vs. 36.31%) while achieving 1.89x inference speedup and 52% GFLOPs reduction. We further introduce ESR-Real, the first real-world RGB-event benchmark for first-person spatial reasoning, where ECP improves accuracy by 2.68 percentage points over full-token baselines.
- Abstract(参考訳): 1対1の動的空間推論は連続的な動きと正確な幾何学的構造を追跡するモデルを必要とするが、トランスフォーマーベースのビデオLLMの二次的注意コストは、密度の高い視覚トークンを計算的に高価にする。
既存のトークンプルーニングパラダイムは、主に離散的な静的スナップショットに依存しており、推論に不可欠な運動と幾何学的手がかりを保存できない。
我々はイベントカスケード・プルーニング(ECP)を提案し,イベントカメラからの高周波モーションキューを,ガイドトークン選択に先立って連続的なイベント誘導動作として活用する,最初のトレーニング不要なフレームワークを提案する。
ECPは、イベントトリガーされた因果サンプリング(Event-Triggered Causal Smpling)と、イベント非アクティブな視覚トークンを抑制するイベント誘導型モーションサリエンシフィルタ(Event-Guided Motion Saliency Filtering)と、モーションサリエント・ダイナミックス(Motion-Salient dynamics)で空間的注意を校正するイベントアテンションランキングフュージョン(Event-Attention Ranking Fusion)の3つのステージを組み合わせる。
80%の視覚トークンの減少により、ECPはフルトーケンベースライン(37.62%対36.31%)より優れ、推論速度は1.89倍、GFLOPは52%向上した。
さらに、ESR-Realは、一対一の空間推論のための最初の実世界のRGB-eventベンチマークであり、ECPはフルトーケンベースラインよりも精度を2.68ポイント向上する。
関連論文リスト
- Towards Video Anomaly Detection from Event Streams: A Baseline and Benchmark Datasets [71.53287557600177]
イベントベースの異常検出を統一研究の方向性として確立するための第一歩を踏み出す。
まず、同期イベントとRGB記録を特徴とする、ビデオ異常検出のための複数のイベントストリームベースのベンチマークを構築した。
次に,EVent中心のビデオ異常検出フレームワークであるEWADを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:33Z) - Motion-aware Event Suppression for Event Cameras [30.62753934435491]
我々は、IMOやエゴモーションによって引き起こされるイベントをリアルタイムにフィルタリングすることを学ぶ、モーション対応イベント抑圧のための最初のフレームワークを紹介する。
我々のモデルは、現在のイベントストリームにおいて、将来の動きを予測しながらIMOを共同でセグメントし、それが起こる前に動的イベントの予測的抑制を可能にする。
論文 参考訳(メタデータ) (2026-02-26T16:53:36Z) - Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models [56.16721798968254]
本研究では,EventSTUという,効率的な理解のためのイベント誘導学習自由フレームワークを提案する。
時間領域において、不要な大フレームを除去するために、イベントカメラのトリガー特性を変化させる粗大なサンプリングアルゴリズムを設計する。
空間領域では,イベントの正当性をゼロコストとして活用し,空間的縮小を誘導する適応的トークンプルーニングアルゴリズムを実現する。
論文 参考訳(メタデータ) (2025-11-24T09:30:02Z) - DeblurSplat: SfM-free 3D Gaussian Splatting with Event Camera for Robust Deblurring [50.21760380168387]
DeSplat と呼ばれるイベントカメラによる3次元ガウス分割法を初めて提案する。
我々は高密度ステレオモジュール(DUSt3R)の事前訓練機能を利用して、ぼやけた画像から正確な初期点雲を直接取得する。
論文 参考訳(メタデータ) (2025-09-23T11:21:54Z) - Motion Matters: Compact Gaussian Streaming for Free-Viewpoint Video Reconstruction [57.76758872762516]
3D Gaussian Splatting (3DGS)は、オンライン自由視点ビデオ(FVV)再構成のための高忠実で効率的なパラダイムとして登場した。
本研究では,動的シーンにおける動きの局所性と一貫性を活かした,コンパクトガウスストリーミング(ComGS)フレームワークを提案する。
ComGS は 3DGStream や 14X に比べて 159 X 以上のストレージ削減を実現している。
論文 参考訳(メタデータ) (2025-05-22T11:22:09Z) - EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文 参考訳(メタデータ) (2025-03-16T09:08:02Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。