論文の概要: A Simple Baseline for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2604.02317v1
- Date: Thu, 02 Apr 2026 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.984476
- Title: A Simple Baseline for Streaming Video Understanding
- Title(参考訳): ストリーミングビデオ理解のための簡易ベースライン
- Authors: Yujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu,
- Abstract要約: 直近のNフレームのみをオフザシェルフVLMに供給するスライディングウィンドウベースラインを形式化する。
OVO-BenchとStreamingBenchをベースとした13のオフラインおよびオンラインビデオLLMベースラインに対して評価を行った。
- 参考スコア(独自算出の注目度): 44.77185258429313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.
- Abstract(参考訳): 最近のストリーミングビデオ理解手法は、長いビデオストリームを扱うための複雑なメモリ機構にますます依存している。
最新のNフレームのみを、市販のVLMに供給するスライディングウィンドウベースラインは、すでに公開されているストリーミングモデルに適合または超えている。
我々は、このベースラインをSimpleStreamとして形式化し、OVO-BenchおよびStreamingBench上の13のオフラインおよびオンラインビデオLLMベースラインに対して評価する。
シンプルさにもかかわらず、SimpleStreamは一貫して強力なパフォーマンスを提供する。
最近のフレームは4つしかなく、OVO-Benchでは67.7%、StreamingBenchでは80.59%に達する。
制御された改善により、より長いコンテキストの値はモデルスケールで均一に増加するのではなく、バックボーン依存であることが示され、一貫した認識-メモリのトレードオフが明らかになる。
これは、より強力なメモリ、検索、圧縮モジュールが、同じプロトコルでSimpleStreamを明らかに上回らない限り、進歩の証拠として捉えるべきでないことを示唆している。
したがって,今後のストリーミングベンチマークでは,近年の認識を長距離メモリから切り離して,複雑化によるパフォーマンス向上をより明確に評価するべきだ,と論じる。
関連論文リスト
- Thinking in Streaming Video [30.61790766076081]
ThinkStreamは、Watch-Think-Speakパラダイムに基づいた、ビデオ推論をストリーミングするためのフレームワークである。
Reasoning-Compressed Streaming Memory (RCSM) は、中間的推論トレースをコンパクトなセマンティックメモリとして扱う。
複数のストリーミングビデオベンチマークの実験では、ThinkStreamが既存のオンラインビデオモデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-03-13T12:33:36Z) - Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously [69.0264594684213]
Video Streaming Thinking (VST) はビデオ理解のための新しいパラダイムである。
ストリーミング中のビデオクリップの推論を起動するメカニズムを視聴しながら思考をサポートする。
VSTはリアルタイム応答性を維持しながら、タイムリーな理解とコヒーレント認知を改善する。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams [11.495597616926274]
Event-VStreamは、連続した動画を、個別にセマンティックに一貫性のあるイベントのシーケンスとして表現する。
システムは、動き、意味、予測的手がかりを統合することで意味のある状態遷移を検出する。
システムは2時間のEgo4Dストリームで約70%のGPT-5の勝利率を維持している。
論文 参考訳(メタデータ) (2026-01-22T05:05:53Z) - StreamForest: Efficient Online Video Understanding with Persistent Event Memory [37.73273040737155]
StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T14:53:57Z) - OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding? [51.45196331624591]
OVO-Benchは、高度なオンラインビデオ理解機能のための新しいベンチマークである。
12のタスクで構成され、644のユニークなビデオと、正確なタイムスタンプを備えた約2,800の細かいメタアノテーションで構成されている。
Video-LLMの9つの評価によると、従来のベンチマークの進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦戦している。
論文 参考訳(メタデータ) (2025-01-09T19:00:01Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。