論文の概要: StreamForest: Efficient Online Video Understanding with Persistent Event Memory
- arxiv url: http://arxiv.org/abs/2509.24871v1
- Date: Mon, 29 Sep 2025 14:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.060746
- Title: StreamForest: Efficient Online Video Understanding with Persistent Event Memory
- Title(参考訳): StreamForest: 永続的なイベントメモリによる効率的なオンラインビデオ理解
- Authors: Xiangyu Zeng, Kefan Qiu, Qingyu Zhang, Xinhao Li, Jing Wang, Jiaxin Li, Ziang Yan, Kun Tian, Meng Tian, Xinhai Zhao, Yi Wang, Limin Wang,
- Abstract要約: StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 37.73273040737155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently achieved remarkable progress in video understanding. However, their effectiveness in real-time streaming scenarios remains limited due to storage constraints of historical visual features and insufficient real-time spatiotemporal reasoning. To address these challenges, we propose StreamForest, a novel architecture specifically designed for streaming video understanding. Central to StreamForest is the Persistent Event Memory Forest, a memory mechanism that adaptively organizes video frames into multiple event-level tree structures. This process is guided by penalty functions based on temporal distance, content similarity, and merge frequency, enabling efficient long-term memory retention under limited computational resources. To enhance real-time perception, we introduce a Fine-grained Spatiotemporal Window, which captures detailed short-term visual cues to improve current scene perception. Additionally, we present OnlineIT, an instruction-tuning dataset tailored for streaming video tasks. OnlineIT significantly boosts MLLM performance in both real-time perception and future prediction. To evaluate generalization in practical applications, we introduce ODV-Bench, a new benchmark focused on real-time streaming video understanding in autonomous driving scenarios. Experimental results demonstrate that StreamForest achieves the state-of-the-art performance, with accuracies of 77.3% on StreamingBench, 60.5% on OVBench, and 55.6% on OVO-Bench. In particular, even under extreme visual token compression (limited to 1024 tokens), the model retains 96.8% of its average accuracy in eight benchmarks relative to the default setting. These results underscore the robustness, efficiency, and generalizability of StreamForest for streaming video understanding.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,ビデオ理解において顕著な進歩を遂げている。
しかし、歴史的視覚的特徴の記憶制約とリアルタイム時空間的推論が不十分なため、リアルタイムストリーミングシナリオにおけるそれらの有効性は依然として制限されている。
これらの課題に対処するために,ストリーミングビデオ理解に特化して設計された新しいアーキテクチャStreamForestを提案する。
StreamForestの中心はPersistent Event Memory Forestである。これは、ビデオフレームを複数のイベントレベルのツリー構造に適応的に整理するメモリメカニズムである。
このプロセスは、時間的距離、内容の類似性、およびマージ周波数に基づくペナルティ関数によってガイドされ、限られた計算資源下での効率的な長期記憶保持を可能にする。
リアルタイムの知覚を高めるために,時間空間の微粒化を導入し,より詳細な短期的な視覚的手がかりを捉え,現在のシーンの知覚を改善する。
さらに、ストリーミングビデオタスクに適した命令チューニングデータセットであるOnlineITを提示する。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
実運用における一般化を評価するため,自律運転シナリオにおけるリアルタイムストリーミングビデオ理解に焦点を当てた新しいベンチマークであるODV-Benchを紹介した。
実験の結果、StreamForestは最先端のパフォーマンスを実現しており、StreamingBenchは77.3%、OVBenchは60.5%、OVO-Benchは55.6%である。
特に、極端な視覚的トークン圧縮(1024トークンに制限)の下でも、標準設定と比較して8つのベンチマークで平均精度の96.8%を維持している。
これらの結果は、ストリーミングビデオ理解のためのStreamForestの堅牢性、効率性、一般化性を強調している。
関連論文リスト
- TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos [47.91239059703758]
TimeChat-Onlineは、リアルタイムビデオインタラクションに革命をもたらすオンラインビデオLLMである。
我々の微分トークンドロップ(DTD)モジュールは、ストリーミングビデオにおける視覚的冗長性の課題に対処します。
実験により、DTDはビデオトークンの82.8%の削減を実現し、StreamingBenchでは98%のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2025-04-24T07:59:46Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges [39.666361965650836]
VideoLLaMBは、長いビデオ理解のためのフレームワークである。
SceneTilingアルゴリズムは、ビデオをコヒーレントなセマンティックユニットに分割する。
VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームを処理する。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。