論文の概要: EventFlash: Towards Efficient MLLMs for Event-Based Vision
- arxiv url: http://arxiv.org/abs/2602.03230v1
- Date: Tue, 03 Feb 2026 08:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.322438
- Title: EventFlash: Towards Efficient MLLMs for Event-Based Vision
- Title(参考訳): EventFlash: イベントベースのビジョンのための効率的なMLLMを目指す
- Authors: Shaoyu Liu, Jianing Li, Guanghui Zhao, Yunjian Zhang, Wen Jiang, Ming Li, Xiangyang Ji,
- Abstract要約: イベントベースのマルチモーダル言語モデル(LMLM)は、高速・低照度シナリオにおける堅牢な認識を可能にする。
EventMindは、500k以上の命令セットを備えた大規模でシーンのさまざまなデータセットです。
本稿では、時間的トークンを適応的に圧縮する効率的な時間的サンプリングのための適応時間的ウィンドウアグリゲーションモジュールを提案する。
EventFlashはイベントベースのビジョンの効率的な基盤モデルであると考えています。
- 参考スコア(独自算出の注目度): 55.65520031675231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event-based multimodal large language models (MLLMs) enable robust perception in high-speed and low-light scenarios, addressing key limitations of frame-based MLLMs. However, current event-based MLLMs often rely on dense image-like processing paradigms, overlooking the spatiotemporal sparsity of event streams and resulting in high computational cost. In this paper, we propose EventFlash, a novel and efficient MLLM to explore spatiotemporal token sparsification for reducing data redundancy and accelerating inference. Technically, we build EventMind, a large-scale and scene-diverse dataset with over 500k instruction sets, providing both short and long event stream sequences to support our curriculum training strategy. We then present an adaptive temporal window aggregation module for efficient temporal sampling, which adaptively compresses temporal tokens while retaining key temporal cues. Finally, a sparse density-guided attention module is designed to improve spatial token efficiency by selecting informative regions and suppressing empty or sparse areas. Experimental results show that EventFlash achieves a $12.4\times$ throughput improvement over the baseline (EventFlash-Zero) while maintaining comparable performance. It supports long-range event stream processing with up to 1,000 bins, significantly outperforming the 5-bin limit of EventGPT. We believe EventFlash serves as an efficient foundation model for event-based vision.
- Abstract(参考訳): イベントベースのマルチモーダル大言語モデル(MLLM)は、フレームベースのMLLMの重要な制限に対処し、高速かつ低照度なシナリオにおいて堅牢な認識を可能にする。
しかし、現在のイベントベースのMLLMは、しばしば高密度の画像のような処理パラダイムに依存し、イベントストリームの時空間の空間性を見落とし、高い計算コストをもたらす。
本稿では,データ冗長性を低減し,推論を高速化するための時空間トークンスペース化を探索する,新規かつ効率的なMLLMであるEventFlashを提案する。
技術的には、500k以上の命令セットを備えた大規模でシーンのさまざまなデータセットであるEventMindを構築します。
次に,鍵時間的手がかりを保持しながら時間的トークンを適応的に圧縮する,効率的な時間的サンプリングのための適応時間的ウィンドウアグリゲーションモジュールを提案する。
最後に、疎密度誘導型注目モジュールは、情報領域を選択し、空またはスパース領域を抑制することにより、空間トークン効率を向上させるように設計されている。
実験の結果、EventFlashはベースライン(EventFlash-Zero)よりもスループットが12.4\times$改善され、同等のパフォーマンスを維持していることがわかった。
最大1000ビンの長距離イベントストリーム処理をサポートし、EventGPTの5ビン制限を大幅に上回る。
EventFlashはイベントベースのビジョンの効率的な基盤モデルであると考えています。
関連論文リスト
- Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models [56.16721798968254]
本研究では,EventSTUという,効率的な理解のためのイベント誘導学習自由フレームワークを提案する。
時間領域において、不要な大フレームを除去するために、イベントカメラのトリガー特性を変化させる粗大なサンプリングアルゴリズムを設計する。
空間領域では,イベントの正当性をゼロコストとして活用し,空間的縮小を誘導する適応的トークンプルーニングアルゴリズムを実現する。
論文 参考訳(メタデータ) (2025-11-24T09:30:02Z) - Learning Efficient Meshflow and Optical Flow from Event Cameras [89.06553762828521]
イベントベースのメッシュフロー推定は、イベントカメラから空間的に滑らかなスパース運動場を予測する新しいタスクである。
本稿では,特殊なエンコーダ・デコーダアーキテクチャを備えた軽量モデルである,イベントベースのMeshFlowネットワークを提案する。
我々は、最近の最先端フロー法と比較して、EEMFlowモデルの異常な性能と実行効率(30倍高速)を示す包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-05T09:30:59Z) - LET-US: Long Event-Text Understanding of Scenes [23.376693904132786]
イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
論文 参考訳(メタデータ) (2025-08-10T16:02:41Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba [11.400397931501338]
イベントカメラは生物学的システムからインスピレーションを受け、低レイテンシと高ダイナミックレンジを持ち、最小限の電力を消費する。
Event Cloudの処理に対する現在のアプローチは、フレームベースの表現に変換することが多い。
我々はPoint Cloud表現に基づく効率的かつ効果的なフレームワークであるEventMambaを提案する。
論文 参考訳(メタデータ) (2024-05-09T21:47:46Z) - Fast Window-Based Event Denoising with Spatiotemporal Correlation
Enhancement [85.66867277156089]
同時にイベントのスタックを扱うウィンドウベースのイベントデノゲーションを提案する。
空間領域では、実世界の事象と雑音を識別するために、最大後部(MAP)を選択する。
我々のアルゴリズムは、イベントノイズを効果的かつ効率的に除去し、下流タスクの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-02-14T15:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。