論文の概要: ALLVB: All-in-One Long Video Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2503.07298v1
- Date: Mon, 10 Mar 2025 13:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:47.015127
- Title: ALLVB: All-in-One Long Video Understanding Benchmark
- Title(参考訳): ALLVB:オールインワンのビデオ理解ベンチマーク
- Authors: Xichen Tan, Yuanjing Luo, Yunfan Ye, Fang Liu, Zhiping Cai,
- Abstract要約: ALLVB(ALL-in-One Long Video Understanding Benchmark)は、長いビデオ理解のための総合的なベンチマークである。
16のカテゴリーで1,376本のビデオがあり、それぞれ平均で2時間近く、QAは252kだ。
これはビデオの数、平均持続時間、QAの数で最大の長ビデオ理解ベンチマークである。
- 参考スコア(独自算出の注目度): 11.851505308660242
- License:
- Abstract: From image to video understanding, the capabilities of Multi-modal LLMs (MLLMs) are increasingly powerful. However, most existing video understanding benchmarks are relatively short, which makes them inadequate for effectively evaluating the long-sequence modeling capabilities of MLLMs. This highlights the urgent need for a comprehensive and integrated long video understanding benchmark to assess the ability of MLLMs thoroughly. To this end, we propose ALLVB (ALL-in-One Long Video Understanding Benchmark). ALLVB's main contributions include: 1) It integrates 9 major video understanding tasks. These tasks are converted into video QA formats, allowing a single benchmark to evaluate 9 different video understanding capabilities of MLLMs, highlighting the versatility, comprehensiveness, and challenging nature of ALLVB. 2) A fully automated annotation pipeline using GPT-4o is designed, requiring only human quality control, which facilitates the maintenance and expansion of the benchmark. 3) It contains 1,376 videos across 16 categories, averaging nearly 2 hours each, with a total of 252k QAs. To the best of our knowledge, it is the largest long video understanding benchmark in terms of the number of videos, average duration, and number of QAs. We have tested various mainstream MLLMs on ALLVB, and the results indicate that even the most advanced commercial models have significant room for improvement. This reflects the benchmark's challenging nature and demonstrates the substantial potential for development in long video understanding.
- Abstract(参考訳): 画像から映像まで、MLLM(Multi-modal LLM)の能力はますます強力になっている。
しかし、既存のほとんどのビデオ理解ベンチマークは比較的短いため、MLLMの長期モデリング能力を効果的に評価するには不十分である。
これは、MLLMの能力を徹底的に評価するために、包括的で統合された長いビデオ理解ベンチマークの必要性を強調している。
そこで本研究では,ALLVB (ALL-in-One Long Video Understanding Benchmark)を提案する。
ALLVBの主な貢献は以下のとおりである。
1)主要なビデオ理解タスクを9つ統合する。
これらのタスクはビデオQAフォーマットに変換され、単一のベンチマークでMLLMの9つの異なるビデオ理解能力を評価できる。
2) GPT-4o を用いた完全自動アノテーションパイプラインを設計し,人為的な品質管理が必要であり,ベンチマークのメンテナンスと拡張が容易である。
3)16のカテゴリーで1,376本のビデオがあり、それぞれ平均2時間近く、総QAは252kである。
我々の知る限りでは、ビデオの数、平均持続時間、QAの数において、最も長いビデオ理解のベンチマークである。
ALVB上で各種のMLLMを試験した結果,最も先進的な商用モデルでも改善の余地が有ることが明らかとなった。
これはベンチマークの挑戦的な性質を反映しており、長いビデオ理解における開発の可能性を示している。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding [48.24581407583288]
StreamingBenchはMLLMのストリーミングビデオ理解能力を評価するために設計された最初の包括的なベンチマークである。
我々は、13のオープンソースおよびプロプライエタリなMLLMを用いてStreamingBenchの実験を行い、最も高度なプロプライエタリなMLLMでさえ、人間レベルのストリーミングビデオ理解能力よりはるかに低い性能で機能することを発見した。
論文 参考訳(メタデータ) (2024-11-06T02:50:30Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文 参考訳(メタデータ) (2024-06-17T08:09:00Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。