論文の概要: Don't Pause! Every prediction matters in a streaming video
- arxiv url: http://arxiv.org/abs/2604.24317v1
- Date: Mon, 27 Apr 2026 11:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.915146
- Title: Don't Pause! Every prediction matters in a streaming video
- Title(参考訳): 急ぐな! ストリーミング動画で予測が問題になる
- Authors: Dibyadip Chatterjee, Zhanzhong Pang, Fadime Sener, Yale Song, Angela Yao,
- Abstract要約: 一般的なストリーミング知覚とアシスト機能を評価するマルチターンプロアクティブクエリを特徴とするSPOT-Benchを提案する。
SPOT-BenchにはTimeliness-F1が付属している。
i)オフラインモデルは、確実にイベントを検知するが、スパム予測は失敗する; (ii) サイレントをトレーニングした後、スパムを減らし、応答を低下させる; (iii) ストリーミングビデオの半分は応答を期待しない。
- 参考スコア(独自算出の注目度): 55.509551643600794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming video models should respond the moment an event unfolds, not after the moment has passed. Yet existing online VideoQA benchmarks remain largely retrospective. They pause the video at fixed timestamps, pose questions about current or past events, and score models only at those moments. This protocol leaves streaming predictions untested. To close this gap, we introduce SPOT-Bench, featuring multi-turn proactive queries that evaluate general streaming perception and assistive capabilities required by an always-on, real-time assistant. SPOT-Bench comes with Timeliness-F1, a consolidated metric that measures streaming predictions by their temporal precision and balanced coverage across the entire video. Our benchmark reveals: (i) offline models detect events reliably but spam predictions unprompted; (ii) post-training for silence reduces spamming but induces unresponsiveness; (iii) half of the streaming video expects no response, which we term dead-time - compute spent here does not affect response latency. These findings motivate AsynKV, a training-free streaming adaptation of offline models, that retains their event perception while improving their streaming behavior. AsynKV features a long-short term memory, utilized efficiently by scaling compute during dead-time. It serves as a strong baseline on SPOT-Bench, outperforming existing streaming models, and achieves state-of-the-art on retrospective benchmarks.
- Abstract(参考訳): ストリーミングビデオモデルは、イベントが展開された瞬間に応答すべきであり、その瞬間が経過した後ではない。
しかし、既存のオンラインビデオQAベンチマークはほとんどの振り返りのままである。
彼らは固定されたタイムスタンプでビデオを一時停止し、現在のイベントや過去のイベントについて質問を投げかけ、その瞬間にのみモデルをスコアする。
このプロトコルは、ストリーミング予測を未検証のまま残している。
このギャップを埋めるために、常にオンのリアルタイムアシスタントが必要とする一般的なストリーミング知覚とアシスト機能を評価するマルチターンプロアクティブクエリを特徴とするSPOT-Benchを導入する。
SPOT-BenchにはTimeliness-F1が付属している。これはビデオ全体の時間的精度とバランスの取れたカバレッジによって、ストリーミングの予測を計測する統合メトリクスだ。
私たちのベンチマークで明らかです。
(i)オフラインモデルはイベントを確実に検出するが、スパム予測は起こり得ない。
二 サイレントトレーニング後、スパムを減少させるが、無反応を引き起こすこと。
(iii) ストリーミングビデオの半分は応答を期待していませんが、これはデッドタイム(dead-time)と呼んでいます。
これらの発見は、オフラインモデルのトレーニング不要なストリーミング適応であるAsynKVを動機付け、ストリーミングの振る舞いを改善しながらイベントの知覚を維持する。
AsynKVは長時間のメモリを備え、デッドタイム中に計算をスケールすることで効率よく利用している。
SPOT-Benchの強力なベースラインとして機能し、既存のストリーミングモデルを上回っ、振り返りベンチマークの最先端を達成する。
関連論文リスト
- Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously [69.0264594684213]
Video Streaming Thinking (VST) はビデオ理解のための新しいパラダイムである。
ストリーミング中のビデオクリップの推論を起動するメカニズムを視聴しながら思考をサポートする。
VSTはリアルタイム応答性を維持しながら、タイムリーな理解とコヒーレント認知を改善する。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - StreamReady: Learning What to Answer and When in Long Streaming Videos [28.99829321053373]
我々は、Answer Readiness Score (ARS) を用いたストリーミングビデオ理解の可読性を考慮した定式化を導入する。
ARSは、モデルが正しいかどうかではなく、適切なタイミングで答えられるかどうかを測定する効果的な精度を定義します。
この定式化に基づいて、リアルタイム応答と時間的推論を統一するフレームワークStreamReadyを導入します。
論文 参考訳(メタデータ) (2026-03-09T17:02:44Z) - WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs [37.61875409530676]
WeaveTimeは、シンプルで効率的でモデルに依存しないフレームワークで、まず注文を教え、次に注文を使用する。
推論では、パスCurrent Dynamic Focus Cacheは不確実性トリガ、粗い粒度検索を実行し、必要なときにだけ履歴を拡大する。
これらの結果はWeaveTimeを、厳格なオンライン時間因果制約の下でビデオ-LLMをストリームする時間意識への実践的なパスとして確立する。
論文 参考訳(メタデータ) (2026-02-25T17:45:45Z) - OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding? [51.45196331624591]
OVO-Benchは、高度なオンラインビデオ理解機能のための新しいベンチマークである。
12のタスクで構成され、644のユニークなビデオと、正確なタイムスタンプを備えた約2,800の細かいメタアノテーションで構成されている。
Video-LLMの9つの評価によると、従来のベンチマークの進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦戦している。
論文 参考訳(メタデータ) (2025-01-09T19:00:01Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。