論文の概要: Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries
- arxiv url: http://arxiv.org/abs/2602.08448v1
- Date: Mon, 09 Feb 2026 10:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.157661
- Title: Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries
- Title(参考訳): Vista: ビデオ質問をポストホッククエリでストリーミングするためのシーンアウェア最適化
- Authors: Haocheng Lu, Nan Zhang, Wei Tao, Xiaoyang Qu, Guokuan Li, Jiguang Wan, Jianzong Wang,
- Abstract要約: シーン対応ストリーミングビデオQAのための新しいフレームワークであるVistaを提示する。
そこで我々は,Vistaが最先端のパフォーマンスを達成し,実世界のストリーミングビデオ理解の強力なベースラインを確立していることを示す。
- 参考スコア(独自算出の注目度): 39.78232295143307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming video question answering (Streaming Video QA) poses distinct challenges for multimodal large language models (MLLMs), as video frames arrive sequentially and user queries can be issued at arbitrary time points. Existing solutions relying on fixed-size memory or naive compression often suffer from context loss or memory overflow, limiting their effectiveness in long-form, real-time scenarios. We present Vista, a novel framework for scene-aware streaming video QA that enables efficient and scalable reasoning over continuous video streams. The innovation of Vista can be summarized in three aspects: (1) scene-aware segmentation, where Vista dynamically clusters incoming frames into temporally and visually coherent scene units; (2) scene-aware compression, where each scene is compressed into a compact token representation and stored in GPU memory for efficient index-based retrieval, while full-resolution frames are offloaded to CPU memory; and (3) scene-aware recall, where relevant scenes are selectively recalled and reintegrated into the model input upon receiving a query, enabling both efficiency and completeness. Vista is model-agnostic and integrates seamlessly with a variety of vision-language backbones, enabling long-context reasoning without compromising latency or memory efficiency. Extensive experiments on StreamingBench demonstrate that Vista achieves state-of-the-art performance, establishing a strong baseline for real-world streaming video understanding.
- Abstract(参考訳): ストリーミングビデオ質問応答(ストリーミングビデオQA)は、ビデオフレームが順次到着し、任意の時刻にユーザクエリが発行されるため、マルチモーダルな大規模言語モデル(MLLM)に対して異なる課題を提起する。
既存のソリューションは、固定サイズのメモリや単純圧縮に依存しており、多くの場合、コンテキスト損失やメモリオーバーフローに悩まされ、長期のリアルタイムシナリオでの有効性が制限される。
連続的なビデオストリームに対する効率的かつスケーラブルな推論を可能にする,シーン対応のストリーミングビデオQAのための新しいフレームワークであるVistaを提案する。
ビスタのイノベーションは,(1)シーン認識のセグメンテーション,(2)シーン認識のフレームを時間的および視覚的に整合的なシーン単位に動的にクラスタ化するセグメンテーション,(2)シーン認識の圧縮,各シーンをコンパクトなトークン表現に圧縮してインデックスベースの効率的な検索のためにGPUメモリに格納する圧縮,(3)シーン認識のフレームをCPUメモリにオフロードするリコール,(3)関連するシーンを選択的にリコールし,クエリ受信時に入力されたモデルに再統合する,という3つの側面で要約することができる。
Vistaはモデルに依存しず、様々な視覚言語バックボーンとシームレスに統合され、レイテンシやメモリ効率を損なうことなく、長いコンテキストの推論を可能にする。
StreamingBenchに関する大規模な実験は、Vistaが最先端のパフォーマンスを実現し、実世界のストリーミングビデオ理解の強力なベースラインを確立することを実証している。
関連論文リスト
- See More, Store Less: Memory-Efficient Resolution for Video Moment Retrieval [5.835635134105812]
本稿では,高情報解像度を維持しながらメモリ効率を向上させるフレームワークであるSMORE(See MORE, store less)を提案する。
SMORE (1) は,ユーザ意図に沿ったセマンティクスを符号化するためにクエリ誘導キャプションを使用し,(2) 関連するセグメントをハイライトするためにクエリ認識の重要度変調を適用し,(3) キーコンテンツを保存するためにフレームを適応的に圧縮する。
実験的検証により、SMOREはQVHighlights、Charades-STA、ActivityNet-Captionsベンチマークで最先端のパフォーマンスを達成することが明らかになった。
論文 参考訳(メタデータ) (2026-01-14T10:28:11Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding [14.50396424661833]
StreamMemは、ストリーミングビデオ理解のためのクエリに依存しないKVキャッシュメモリメカニズムである。
クエリ非依存のKVキャッシュ圧縮における最先端のパフォーマンスを実現し、クエリ対応圧縮アプローチと競合する。
論文 参考訳(メタデータ) (2025-08-21T16:56:29Z) - VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models [80.92928946973026]
ビデオ階層型空間-時間的直接参照最適化のためのフレームワークであるVistaDPOを紹介する。
VistaDPOは3つの階層レベルにまたがってテキストとビデオの好みのアライメントを強化する。
Video Hallucination、Video QA、Captioningパフォーマンスタスクなどのベンチマークの実験では、VistaDPOが既存のLVMのパフォーマンスを大幅に改善していることが示されている。
論文 参考訳(メタデータ) (2025-04-17T17:39:41Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。