論文の概要: Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models
- arxiv url: http://arxiv.org/abs/2311.16103v2
- Date: Tue, 28 Nov 2023 18:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:40:02.630340
- Title: Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models
- Title(参考訳): Video-Bench: ビデオベース大規模言語モデル評価のための総合ベンチマークとツールキット
- Authors: Munan Ning and Bin Zhu and Yujia Xie and Bin Lin and Jiaxi Cui and Lu
Yuan and Dongdong Chen and Li Yuan
- Abstract要約: ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
- 参考スコア(独自算出の注目度): 81.84810348214113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based large language models (Video-LLMs) have been recently introduced,
targeting both fundamental improvements in perception and comprehension, and a
diverse range of user inquiries. In pursuit of the ultimate goal of achieving
artificial general intelligence, a truly intelligent Video-LLM model should not
only see and understand the surroundings, but also possess human-level
commonsense, and make well-informed decisions for the users. To guide the
development of such a model, the establishment of a robust and comprehensive
evaluation system becomes crucial. To this end, this paper proposes
\textit{Video-Bench}, a new comprehensive benchmark along with a toolkit
specifically designed for evaluating Video-LLMs. The benchmark comprises 10
meticulously crafted tasks, evaluating the capabilities of Video-LLMs across
three distinct levels: Video-exclusive Understanding, Prior Knowledge-based
Question-Answering, and Comprehension and Decision-making. In addition, we
introduce an automatic toolkit tailored to process model outputs for various
tasks, facilitating the calculation of metrics and generating convenient final
scores. We evaluate 8 representative Video-LLMs using \textit{Video-Bench}. The
findings reveal that current Video-LLMs still fall considerably short of
achieving human-like comprehension and analysis of real-world videos, offering
valuable insights for future research directions. The benchmark and toolkit are
available at: \url{https://github.com/PKU-YuanGroup/Video-Bench}.
- Abstract(参考訳): ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
人工知能の実現という究極の目標を追求するために、真にインテリジェントなビデオllmモデルは、周囲を観察し理解するだけでなく、人間レベルの常識を持ち、ユーザに適切に決定を下すべきである。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
そこで本稿では,ビデオllm評価のためのツールキットとともに,新しい総合ベンチマークである \textit{video-bench} を提案する。
このベンチマークは、ビデオ排他的理解、事前知識に基づく質問回答、理解と意思決定の3つのレベルにまたがる、ビデオLLMの能力を評価する10の精巧なタスクで構成されている。
さらに,各種タスクのプロセスモデル出力に適した自動ツールキットを導入し,メトリクスの計算を容易にし,便利な最終スコアを生成する。
ビデオ-LLMの代表的な8種をtextit{Video-Bench} を用いて評価した。
この結果によると、現在のビデオ-LLMは人間のような理解と実世界のビデオの分析を達成できない状態にあり、将来の研究の方向性に貴重な洞察を与えている。
ベンチマークとツールキットは: \url{https://github.com/PKU-YuanGroup/Video-Bench}.comで入手できる。
関連論文リスト
- Video Understanding with Large Language Models: A Survey [101.91261236334486]
本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。
LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。
さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - Vamos: Versatile Action Models for Video Understanding [25.03993572202632]
本稿では、個別のアクションラベルや自由形式のビデオキャプションなど、テキストベースの表現を再検討することを提案する。
そこで我々は,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
テキストベースの表現は、すべてのベンチマークにおいて一貫して競合性能を達成し、視覚的な埋め込みは、パフォーマンス改善に限界を与えない。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Video-CSR: Complex Video Digest Creation for Visual-Language Models [71.66614561702131]
実世界のビデオクリップのキャプションや要約を生成する視覚言語モデルの性能を評価するための新しいタスクと人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の4.8KのYouTubeビデオクリップが含まれており、幅広いトピックや興味をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。