論文の概要: StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2411.03628v1
- Date: Wed, 06 Nov 2024 02:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:30.690619
- Title: StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
- Title(参考訳): StreamingBench: ストリーミングビデオ理解を実現するMLLMのギャップを評価する
- Authors: Junming Lin, Zheng Fang, Chi Chen, Zihao Wan, Fuwen Luo, Peng Li, Yang Liu, Maosong Sun,
- Abstract要約: StreamingBenchはMLLMのストリーミングビデオ理解能力を評価するために設計された最初の包括的なベンチマークである。
我々は、13のオープンソースおよびプロプライエタリなMLLMを用いてStreamingBenchの実験を行い、最も高度なプロプライエタリなMLLMでさえ、人間レベルのストリーミングビデオ理解能力よりはるかに低い性能で機能することを発見した。
- 参考スコア(独自算出の注目度): 48.24581407583288
- License:
- Abstract: The rapid development of Multimodal Large Language Models (MLLMs) has expanded their capabilities from image comprehension to video understanding. However, most of these MLLMs focus primarily on offline video comprehension, necessitating extensive processing of all video frames before any queries can be made. This presents a significant gap compared to the human ability to watch, listen, think, and respond to streaming inputs in real time, highlighting the limitations of current MLLMs. In this paper, we introduce StreamingBench, the first comprehensive benchmark designed to evaluate the streaming video understanding capabilities of MLLMs. StreamingBench assesses three core aspects of streaming video understanding: (1) real-time visual understanding, (2) omni-source understanding, and (3) contextual understanding. The benchmark consists of 18 tasks, featuring 900 videos and 4,500 human-curated QA pairs. Each video features five questions presented at different time points to simulate a continuous streaming scenario. We conduct experiments on StreamingBench with 13 open-source and proprietary MLLMs and find that even the most advanced proprietary MLLMs like Gemini 1.5 Pro and GPT-4o perform significantly below human-level streaming video understanding capabilities. We hope our work can facilitate further advancements for MLLMs, empowering them to approach human-level video comprehension and interaction in more realistic scenarios.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な開発により、画像理解からビデオ理解までその能力が拡張された。
しかし、これらのMLLMのほとんどは、オフラインのビデオ理解に重点を置いており、あらゆるクエリが作成される前に、すべてのビデオフレームを広範囲に処理する必要がある。
これは、現在のMLLMの限界を強調しながら、ストリーミングインプットをリアルタイムで見たり、聴いたり、考えたり、反応したりする人間の能力と比較して、大きなギャップを示している。
本稿では,MLLMのストリーミングビデオ理解能力を評価するための総合ベンチマークであるStreamingBenchを紹介する。
StreamingBenchは,ストリーミングビデオ理解の3つの中核的側面を評価する。(1)リアルタイム視覚理解,(2)オールニソース理解,(3)コンテキスト理解である。
ベンチマークは18のタスクで構成され、900の動画と4500の人為的なQAペアで構成されている。
各ビデオは、連続的なストリーミングシナリオをシミュレートするために、異なる時間ポイントで提示される5つの質問を特徴としている。
我々は、13のオープンソースおよびプロプライエタリなMLLMを用いてStreamingBenchの実験を行い、Gemini 1.5 ProやGPT-4oのような最も高度なプロプライエタリなMLLMでさえ、人間レベルのストリーミングビデオ理解能力よりはるかに低いパフォーマンスを得られることを発見した。
我々の研究がMLLMのさらなる進歩を促進し、より現実的なシナリオで人間レベルの映像理解と対話にアプローチできるようにすることを願っている。
関連論文リスト
- MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。