論文の概要: EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2511.18920v1
- Date: Mon, 24 Nov 2025 09:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.128629
- Title: EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models
- Title(参考訳): EventSTU:ビデオ大言語モデルのためのイベントガイド付き高効率時空間理解
- Authors: Wenhao Xu, Xin Dong, Yue Li, Haoyuan Shi, Zhiwei Xiong,
- Abstract要約: 本研究では,EventSTUという,効率的な理解のためのイベント誘導学習自由フレームワークを提案する。
時間領域において、不要な大フレームを除去するために、イベントカメラのトリガー特性を変化させる粗大なサンプリングアルゴリズムを設計する。
空間領域では,イベントの正当性をゼロコストとして活用し,空間的縮小を誘導する適応的トークンプルーニングアルゴリズムを実現する。
- 参考スコア(独自算出の注目度): 56.16721798968254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video large language models have demonstrated strong video understanding capabilities but suffer from high inference costs due to the massive number of tokens in long videos. Inspired by event-based vision, we propose an event-guided, training-free framework for efficient spatio-temporal understanding, named EventSTU. In the temporal domain, we design a coarse-to-fine keyframe sampling algorithm that exploits the change-triggered property of event cameras to eliminate redundant frames. In the spatial domain, we design an adaptive token pruning algorithm that leverages the visual saliency of events as a zero-cost prior to guide spatial reduction. From a holistic spatio-temporal perspective, we further integrate question relevance from keyframe sampling to adaptively allocate token pruning budgets. To facilitate evaluation, we construct EventBench, the first event-inclusive, human-annotated multimodal benchmark that covers diverse real-world scenarios. Beyond physical event cameras, EventSTU also supports general video understanding using simulated events. Comprehensive experiments show that EventSTU achieves 3.01x FLOPs reduction and 3.10x prefilling speedup over the strongest baseline while still improving performance.
- Abstract(参考訳): ビデオ大言語モデルは、強力なビデオ理解能力を示しているが、長いビデオに大量のトークンがあるため、高い推論コストに悩まされている。
イベントベースのビジョンにインスパイアされた、効率的な時空間理解のための、イベントガイド付き、トレーニング不要なフレームワークEventSTUを提案する。
時間領域において、イベントカメラの切替トリガー特性を利用して余分なフレームを除去する粗大なキーフレームサンプリングアルゴリズムを設計する。
空間領域では,イベントの視覚的サリシティをゼロコストとして活用し,空間的縮小を誘導する適応的トークンプルーニングアルゴリズムを設計する。
全体論的な時空間的観点から、キーフレームサンプリングからの質問関連性をさらに統合し、トークンプルーニング予算を適応的に割り当てる。
評価を容易にするために、我々はEventBenchを構築した。EventBenchは、さまざまな実世界のシナリオをカバーする、最初のイベント包括型、人間アノテーション付きマルチモーダルベンチマークである。
物理的なイベントカメラ以外に、EventSTUはシミュレートされたイベントを使用した一般的なビデオ理解もサポートする。
総合的な実験の結果、EventSTUは最強のベースラインで3.01倍のFLOPと3.10倍のプレフィルを達成し、性能は改善した。
関連論文リスト
- LET-US: Long Event-Text Understanding of Scenes [23.376693904132786]
イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
論文 参考訳(メタデータ) (2025-08-10T16:02:41Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - PASS: Path-selective State Space Model for Event-based Recognition [12.651829415097758]
イベントカメラは、高時間分解能などの利点を持つバイオインスパイアされたセンサーである。
当社のPASSフレームワークは,高次イベントモデリングに優れた能力を示す。
私たちの重要な洞察は、状態空間モデルを通じて適応的に符号化されたイベント機能を学ぶことです。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Exploring Event-based Human Pose Estimation with 3D Event Representations [26.34100847541989]
我々は、Rasterized Event Point Cloud(Ras EPC)とDecoupled Event Voxel(DEV)の2つの3Dイベント表現を紹介した。
Ras EPCは、簡潔な時間スライス内のイベントを同じ位置で集約し、それらの3D属性を統計情報と共に保存し、メモリと計算要求を大幅に削減する。
提案手法は,DHP19公開データセット,MMHPSDデータセット,EV-3DPWデータセットで検証し,誘導駆動シーンデータセットEV-JAADと屋外収集車両によるさらなる定性検証を行った。
論文 参考訳(メタデータ) (2023-11-08T10:45:09Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。