論文の概要: Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs
- arxiv url: http://arxiv.org/abs/2406.09367v1
- Date: Thu, 13 Jun 2024 17:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:15:58.970027
- Title: Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs
- Title(参考訳): Needle in a Video Haystack: ビデオMLLMのベンチマークのためのスケーラブルな合成フレームワーク
- Authors: Zijia Zhao, Haoyu Lu, Yuqi Huo, Yifan Du, Tongtian Yue, Longteng Guo, Bingning Wang, Weipeng Chen, Jing Liu,
- Abstract要約: 合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
VideoNIAHは、関連のない画像/テキスト 'needles' をオリジナルビデオに挿入することで、クエリ応答からテストビデオコンテンツを分離する。
アノテーションはこれらの針からのみ生成され、ビデオソースの多様性と様々なクエリ応答が保証される。
- 参考スコア(独自算出の注目度): 20.168429351519055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video understanding is a crucial next step for multimodal large language models (MLLMs). To probe specific aspects of video understanding ability, existing video benchmarks typically require careful video selection based on the target capability, along with laborious annotation of query-response pairs to match the specific video content. This process is both challenging and resource-intensive. In this paper, we propose VideoNIAH (Video Needle In A Haystack), a benchmark construction framework through synthetic video generation. VideoNIAH decouples test video content from their query-responses by inserting unrelated image/text 'needles' into original videos. It generates annotations solely from these needles, ensuring diversity in video sources and a variety of query-responses. Additionally, by inserting multiple needles, VideoNIAH rigorously evaluates the temporal understanding capabilities of models. We utilized VideoNIAH to compile a video benchmark VNBench, including tasks such as retrieval, ordering, and counting. VNBench can efficiently evaluate the fine-grained understanding ability and spatio-temporal modeling ability of a video model, while also supporting the long-context evaluation. Additionally, we evaluated recent video-centric multimodal large language models (MLLMs), both open-source and proprietary, providing a comprehensive analysis. We found that although proprietary models have significant advantages over open-source models, all existing video models still perform poorly on long-distance dependency tasks. VideoNIAH is a simple yet highly scalable benchmark construction framework, and we believe it will inspire future video benchmark works. The code and data are available at https://github.com/joez17/VideoNIAH.
- Abstract(参考訳): ビデオ理解はマルチモーダル大言語モデル(MLLM)にとって重要な次のステップである。
ビデオ理解能力の特定の側面を探索するためには、既存のビデオベンチマークでは、ターゲット能力に基づいた慎重なビデオ選択と、特定のビデオコンテンツにマッチするクエリ応答ペアの厳密なアノテーションが必要である。
このプロセスは、挑戦的かつリソース集約的です。
本稿では,合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
VideoNIAHは、関連のない画像/テキスト 'needles' を元のビデオに挿入することで、クエリ応答からテストビデオコンテンツを分離する。
アノテーションはこれらの針からのみ生成され、ビデオソースの多様性と様々なクエリ応答が保証される。
さらに、複数の針を挿入することで、VideoNIAHはモデルの時間的理解能力を厳格に評価する。
我々はVideoNIAHを使ってビデオベンチマークVNBenchをコンパイルし、検索、注文、カウントなどのタスクを含む。
VNBenchは、ビデオモデルの細粒度理解能力と時空間モデリング能力を効率よく評価できると同時に、長文評価もサポートできる。
さらに,最近のビデオ中心型マルチモーダル言語モデル (MLLM) を,オープンソースとプロプライエタリの両方で評価し,包括的分析を行った。
プロプライエタリなモデルはオープンソースモデルよりも大きなメリットがあるものの、既存のビデオモデルはすべて、長距離依存タスクではパフォーマンスが良くないことがわかった。
VideoNIAHはシンプルでスケーラブルなベンチマーク構築フレームワークです。
コードとデータはhttps://github.com/joez17/VideoNIAHで公開されている。
関連論文リスト
- MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。