論文の概要: VSAS-BENCH: Real-Time Evaluation of Visual Streaming Assistant Models
- arxiv url: http://arxiv.org/abs/2604.07634v1
- Date: Wed, 08 Apr 2026 22:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.585813
- Title: VSAS-BENCH: Real-Time Evaluation of Visual Streaming Assistant Models
- Title(参考訳): VSAS-BENCH:ビジュアルストリーミングアシスタントモデルのリアルタイム評価
- Authors: Pavan Kumar Anasosalu Vasu, Cem Koc, Fartash Faghri, Chun-Liang Li, Bo Feng, Zhengfeng Lai, Meng Cao, Oncel Tuzel, Hadi Pouransari,
- Abstract要約: ストリーム視覚言語モデル(VLM)は、命令プロンプトと入力フレームのオンラインストリームが与えられた応答を連続的に生成する。
Visual Streaming Assistantsの新しいフレームワークとベンチマークであるVSAS-Benchを提案する。
- 参考スコア(独自算出の注目度): 39.78979236902648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Streaming vision-language models (VLMs) continuously generate responses given an instruction prompt and an online stream of input frames. This is a core mechanism for real-time visual assistants. Existing VLM frameworks predominantly assess models in offline settings. In contrast, the performance of a streaming VLM depends on additional metrics beyond pure video understanding, including proactiveness, which reflects the timeliness of the model's responses, and consistency, which captures the robustness of its responses over time. To address this limitation, we propose VSAS-Bench, a new framework and benchmark for Visual Streaming Assistants. In contrast to prior benchmarks that primarily employ single-turn question answering on video inputs, VSAS-Bench features temporally dense annotations with over 18,000 annotations across diverse input domains and task types. We introduce standardized synchronous and asynchronous evaluation protocols, along with metrics that isolate and measure distinct capabilities of streaming VLMs. Using this framework, we conduct large-scale evaluations of recent video and streaming VLMs, analyzing the accuracy-latency trade-off under key design factors such as memory buffer length, memory access policy, and input resolution, yielding several practical insights. Finally, we show empirically that conventional VLMs can be adapted to streaming settings without additional training, and demonstrate that these adapted models outperform recent streaming VLMs. For example, Qwen3-VL-4B surpasses Dispider, the best streaming VLM on our benchmark, by 3% under the asynchronous protocol. The benchmark and code will be available at https://github.com/apple/ml-vsas-bench.
- Abstract(参考訳): ストリーム視覚言語モデル(VLM)は、命令プロンプトと入力フレームのオンラインストリームが与えられた応答を連続的に生成する。
これはリアルタイムビジュアルアシスタントのコアメカニズムである。
既存のVLMフレームワークは、主にオフライン設定でモデルを評価する。
対照的に、ストリーミングVLMのパフォーマンスは、モデルの応答のタイムラインを反映する積極性や、時間の経過とともに応答の堅牢性をキャプチャする一貫性など、純粋なビデオ理解以上の追加のメトリクスに依存する。
この制限に対処するため、Visual Streaming Assistantsの新しいフレームワークとベンチマークであるVSAS-Benchを提案する。
ビデオ入力に単一ターンの質問応答を主とする以前のベンチマークとは対照的に、VSAS-Benchは、多様な入力ドメインとタスクタイプにまたがる18,000以上のアノテーションを備えた、時間的に密集したアノテーションを備えている。
ストリーミングVLMの異なる機能を分離し、測定するメトリクスとともに、標準化された同期および非同期評価プロトコルを紹介します。
このフレームワークを用いて,最近のビデオおよびストリーミングVLMの大規模評価を行い,メモリバッファ長,メモリアクセスポリシ,入力解像度といった重要な設計要素下での精度・レイテンシのトレードオフを分析し,いくつかの実用的な知見を得た。
最後に、従来のVLMが追加のトレーニングなしでストリーミング設定に適応できることを実証的に示し、これらの適応モデルは最近のストリーミングVLMよりも優れていることを示す。
例えば、Qwen3-VL-4Bは、我々のベンチマークで最高のストリーミングVLMであるDispiderを3%上回っています。
ベンチマークとコードはhttps://github.com/apple/ml-vsas-bench.comで公開される。
関連論文リスト
- GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding [8.196520511153368]
ビデオ時間グラウンド(VTG)はビデオにおいて重要なタスクであり、大規模な言語モデル(Vid-LLM)を広範囲のアプリケーションに拡張するための重要な能力を理解する。
既存のVid-LLMは、一様フレームサンプリングに頼って映像情報を抽出し、キーフレームの疎分布と重要な時間的手がかりの喪失をもたらす。
我々は,最も情報性の高い時間セグメントに着目したVid-LLMアーキテクチャであるGroundVTSを提案する。
論文 参考訳(メタデータ) (2026-04-02T14:19:58Z) - TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - StreamForest: Efficient Online Video Understanding with Persistent Event Memory [37.73273040737155]
StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T14:53:57Z) - Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames [70.93346841539626]
本稿では,ビデオ質問応答のための推論戦略である思考の時間的連鎖について述べる。
VLM自体を使用して、ビデオから最も関連性の高いフレームを反復的に識別し、抽出する。
推論時により多くの計算を利用すれば、最も関連性の高いコンテキストを選択することで、精度が向上することを示す。
論文 参考訳(メタデータ) (2025-07-01T18:39:26Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。