論文の概要: Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models
- arxiv url: http://arxiv.org/abs/2311.16103v2
- Date: Tue, 28 Nov 2023 18:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:40:02.630340
- Title: Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models
- Title(参考訳): Video-Bench: ビデオベース大規模言語モデル評価のための総合ベンチマークとツールキット
- Authors: Munan Ning and Bin Zhu and Yujia Xie and Bin Lin and Jiaxi Cui and Lu
Yuan and Dongdong Chen and Li Yuan
- Abstract要約: ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
- 参考スコア(独自算出の注目度): 81.84810348214113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based large language models (Video-LLMs) have been recently introduced,
targeting both fundamental improvements in perception and comprehension, and a
diverse range of user inquiries. In pursuit of the ultimate goal of achieving
artificial general intelligence, a truly intelligent Video-LLM model should not
only see and understand the surroundings, but also possess human-level
commonsense, and make well-informed decisions for the users. To guide the
development of such a model, the establishment of a robust and comprehensive
evaluation system becomes crucial. To this end, this paper proposes
\textit{Video-Bench}, a new comprehensive benchmark along with a toolkit
specifically designed for evaluating Video-LLMs. The benchmark comprises 10
meticulously crafted tasks, evaluating the capabilities of Video-LLMs across
three distinct levels: Video-exclusive Understanding, Prior Knowledge-based
Question-Answering, and Comprehension and Decision-making. In addition, we
introduce an automatic toolkit tailored to process model outputs for various
tasks, facilitating the calculation of metrics and generating convenient final
scores. We evaluate 8 representative Video-LLMs using \textit{Video-Bench}. The
findings reveal that current Video-LLMs still fall considerably short of
achieving human-like comprehension and analysis of real-world videos, offering
valuable insights for future research directions. The benchmark and toolkit are
available at: \url{https://github.com/PKU-YuanGroup/Video-Bench}.
- Abstract(参考訳): ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
人工知能の実現という究極の目標を追求するために、真にインテリジェントなビデオllmモデルは、周囲を観察し理解するだけでなく、人間レベルの常識を持ち、ユーザに適切に決定を下すべきである。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
そこで本稿では,ビデオllm評価のためのツールキットとともに,新しい総合ベンチマークである \textit{video-bench} を提案する。
このベンチマークは、ビデオ排他的理解、事前知識に基づく質問回答、理解と意思決定の3つのレベルにまたがる、ビデオLLMの能力を評価する10の精巧なタスクで構成されている。
さらに,各種タスクのプロセスモデル出力に適した自動ツールキットを導入し,メトリクスの計算を容易にし,便利な最終スコアを生成する。
ビデオ-LLMの代表的な8種をtextit{Video-Bench} を用いて評価した。
この結果によると、現在のビデオ-LLMは人間のような理解と実世界のビデオの分析を達成できない状態にあり、将来の研究の方向性に貴重な洞察を与えている。
ベンチマークとツールキットは: \url{https://github.com/PKU-YuanGroup/Video-Bench}.comで入手できる。
関連論文リスト
- TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。