論文の概要: StreamingEval: A Unified Evaluation Protocol towards Realistic Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2603.21493v1
- Date: Mon, 23 Mar 2026 02:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.447216
- Title: StreamingEval: A Unified Evaluation Protocol towards Realistic Streaming Video Understanding
- Title(参考訳): StreamingEval: リアルタイムストリーミングビデオ理解のための統一評価プロトコル
- Authors: Guowei Tang, Tianwen Qian, Huanran Zheng, Yifei Wang, Xiaoling Wang,
- Abstract要約: StreamingEvalは、現実的な制約の下でビデオ-LLMのストリーミングビデオ理解能力を評価するための統一的な評価フレームワークである。
我々は、歴史的視覚コンテキストを正規化するために固定容量メモリバンクを採用し、アクセス可能な視覚符号化効率、テキスト復号遅延、タスクパフォーマンスを共同評価する。
- 参考スコア(独自算出の注目度): 26.728635060807377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time, continuous understanding of visual signals is essential for real-world interactive AI applications, and poses a fundamental system-level challenge. Existing research on streaming video understanding, however, typically focuses on isolated aspects such as question-answering accuracy under limited visual context or improvements in encoding efficiency, while largely overlooking practical deployability under realistic resource constraints. To bridge this gap, we introduce StreamingEval, a unified evaluation framework for assessing the streaming video understanding capabilities of Video-LLMs under realistic constraints. StreamingEval benchmarks both mainstream offline models and recent online video models under a standardized protocol, explicitly characterizing the trade-off between efficiency, storage and accuracy. Specifically, we adopt a fixed-capacity memory bank to normalize accessible historical visual context, and jointly evaluate visual encoding efficiency, text decoding latency, and task performance to quantify overall system deployability. Extensive experiments across multiple datasets reveal substantial gaps between current Video-LLMs and the requirements of realistic streaming applications, providing a systematic basis for future research in this direction. Codes will be released at https://github.com/wwgTang-111/StreamingEval1.
- Abstract(参考訳): リアルタイムかつ連続的な視覚信号の理解は、現実の対話型AIアプリケーションには不可欠であり、システムレベルの根本的な課題となる。
しかし、ストリーミングビデオ理解に関する既存の研究は、通常、限られた視覚的文脈下での質問応答精度や符号化効率の改善など、独立した側面に焦点を当てている。
このギャップを埋めるため、現実的な制約下でビデオ-LLMのストリーミングビデオ理解能力を評価するための統合評価フレームワークStreamingEvalを導入する。
StreamingEvalベンチマークは、主要なオフラインモデルと最近のオンラインビデオモデルの両方を標準化されたプロトコルでベンチマークし、効率、ストレージ、精度のトレードオフを明確に特徴付けている。
具体的には、固定容量メモリバンクを用いて、アクセス可能な歴史的視覚コンテキストを正規化し、視覚符号化効率、テキスト復号遅延、タスクパフォーマンスを共同で評価し、システム全体のデプロイ可能性の定量化を行う。
複数のデータセットにわたる大規模な実験は、現在のビデオ-LLMと現実的なストリーミングアプリケーションの要件の間に大きなギャップを生じさせ、この方向への将来の研究の体系的な基盤を提供する。
コードはhttps://github.com/wwgTang-111/StreamingEval1.comでリリースされる。
関連論文リスト
- Exploring Real-Time Super-Resolution: Benchmarking and Fine-Tuning for Streaming Content [1.1926989512978123]
われわれは,YouTubeをソースとした総合データセットStreamSRを紹介した。
我々は11の最先端のリアルタイム超解像モデルをベンチマークし、ストリーミングユースケースの性能を評価する。
本稿では,効率的なチャネルアテンションと双曲的タンジェントアクティベーション機能を組み合わせた効率的なリアルタイムモデルであるEfRLFNを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:22:06Z) - StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos [128.45606644157]
StreamGazeは、MLLMがストリーミングビデオにおける時間的および前向きな推論において、いかに効果的に視線を使用するかを評価する最初のベンチマークである。
我々は、エゴセントリックなビデオと生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。
我々は、最先端のMLLMと人的パフォーマンスの相違をかなり観察する。
論文 参考訳(メタデータ) (2025-12-01T14:15:44Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。