論文の概要: Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams
- arxiv url: http://arxiv.org/abs/2601.15655v1
- Date: Thu, 22 Jan 2026 05:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.497884
- Title: Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams
- Title(参考訳): Event-VStream: ロングビデオストリームのためのイベント駆動リアルタイム理解
- Authors: Zhenghui Guo, Yuanbin Man, Junyuan Sheng, Bowen Lin, Ahmed Ahmed, Bo Jiang, Boyuan Zhang, Miao Yin, Sian Jin, Omprakash Gnawal, Chengming Zhang,
- Abstract要約: Event-VStreamは、連続した動画を、個別にセマンティックに一貫性のあるイベントのシーケンスとして表現する。
システムは、動き、意味、予測的手がかりを統合することで意味のある状態遷移を検出する。
システムは2時間のEgo4Dストリームで約70%のGPT-5の勝利率を維持している。
- 参考スコア(独自算出の注目度): 11.495597616926274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time understanding of long video streams remains challenging for multimodal large language models (VLMs) due to redundant frame processing and rapid forgetting of past context. Existing streaming systems rely on fixed-interval decoding or cache pruning, which either produce repetitive outputs or discard crucial temporal information. We introduce Event-VStream, an event-aware framework that represents continuous video as a sequence of discrete, semantically coherent events. Our system detects meaningful state transitions by integrating motion, semantic, and predictive cues, and triggers language generation only at those boundaries. Each event embedding is consolidated into a persistent memory bank, enabling long-horizon reasoning while maintaining low latency. Across OVOBench-Realtime, and long-form Ego4D evaluations, Event-VStream achieves competitive performance. It improves over a VideoLLM-Online-8B baseline by +10.4 points on OVOBench-Realtime, achieves performance close to Flash-VStream-7B despite using only a general-purpose LLaMA-3-8B text backbone, and maintains around 70% GPT-5 win rate on 2-hour Ego4D streams.
- Abstract(参考訳): 長いビデオストリームのリアルタイム理解は、冗長なフレーム処理と過去の文脈の素早い忘れが原因で、マルチモーダルな大規模言語モデル(VLM)では依然として困難である。
既存のストリーミングシステムは固定インターバルデコーディングやキャッシュプルーニングに依存しており、繰り返し出力を生成するか、重要な時間情報を破棄する。
イベント対応フレームワークであるEvent-VStreamを導入し、連続動画を個別にセマンティックに一貫性のあるイベントのシーケンスとして表現する。
本システムでは,動作,意味,予測を統合して意味のある状態遷移を検知し,その境界でのみ言語生成をトリガーする。
各イベントの埋め込みは永続メモリバンクに統合され、低レイテンシを維持しながら長期の推論を可能にする。
OVOBench-Realtime と long-form Ego4D 評価の他、Event-VStream は競合するパフォーマンスを実現している。
ビデオLLM-Online-8BベースラインをOVOBench-Realtimeで+10.4ポイント改善し、汎用的なLLaMA-3-8Bテキストバックボーンのみを使用しながらFlash-VStream-7Bに近いパフォーマンスを実現し、2時間のEgo4Dストリームで約70%のGPT-5勝率を維持している。
関連論文リスト
- StreamingVLM: Real-Time Understanding for Infinite Video Streams [23.94087606884915]
StreamingVLMは、無限視覚入力のリアルタイムで安定した理解のために設計されたモデルである。
私たちのアプローチは、トレーニングとストリーミング推論を整合させる統合フレームワークです。
Inf-Streams-Evalでは、StreamingVLMはGPT-4O miniに対して66.18%の勝利率を獲得し、1つのNVIDIA H100上で最大8FPSで安定したリアルタイムパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-10T17:59:58Z) - StreamForest: Efficient Online Video Understanding with Persistent Event Memory [37.73273040737155]
StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T14:53:57Z) - StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling [27.468345201477504]
実世界の環境におけるVLN(Vision-and-Language Navigation)では、エージェントが連続的なビジュアルストリームを処理し、言語命令に基礎を置く低レイテンシでアクションを生成する必要がある。
本稿では,ストリームVLNフレームワークについて紹介する。ストリームVLNは,マルチモーダル推論をサポートするために,低速コンテキストモデリングをハイブリッドで実現する。
VLN-CEベンチマークの実験では、最先端のパフォーマンスが安定した低レイテンシで、現実のデプロイメントにおける堅牢性と効率が保証されている。
論文 参考訳(メタデータ) (2025-07-07T17:49:41Z) - Flash-VStream: Efficient Real-Time Understanding for Long Video Streams [64.25549822010372]
Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。
既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
論文 参考訳(メタデータ) (2025-06-30T13:17:49Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。