論文の概要: VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
- arxiv url: http://arxiv.org/abs/2411.13281v1
- Date: Wed, 20 Nov 2024 12:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:43.724463
- Title: VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
- Title(参考訳): VideoAutoArena: ユーザシミュレーションによるビデオ分析における大規模マルチモーダルモデル評価のための自動アリーナ
- Authors: Ziyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li,
- Abstract要約: VideoAutoArenaは、LMMのビデオ分析能力を自動評価するアリーナスタイルのベンチマークである。
VideoAutoArenaは、ユーザシミュレーションを利用して、ビデオ理解におけるモデルパフォーマンスを厳格に評価する、オープンエンドで適応的な質問を生成する。
我々は、より困難なビデオ分析シナリオに対処するためにモデルをプッシュするために、障害駆動型進化戦略を導入し、徐々に疑問の複雑さを増す。
- 参考スコア(独自算出の注目度): 27.814374756146698
- License:
- Abstract: Large multimodal models (LMMs) with advanced video analysis capabilities have recently garnered significant attention. However, most evaluations rely on traditional methods like multiple-choice questions in benchmarks such as VideoMME and LongVideoBench, which are prone to lack the depth needed to capture the complex demands of real-world users. To address this limitation-and due to the prohibitive cost and slow pace of human annotation for video tasks-we introduce VideoAutoArena, an arena-style benchmark inspired by LMSYS Chatbot Arena's framework, designed to automatically assess LMMs' video analysis abilities. VideoAutoArena utilizes user simulation to generate open-ended, adaptive questions that rigorously assess model performance in video understanding. The benchmark features an automated, scalable evaluation framework, incorporating a modified ELO Rating System for fair and continuous comparisons across multiple LMMs. To validate our automated judging system, we construct a 'gold standard' using a carefully curated subset of human annotations, demonstrating that our arena strongly aligns with human judgment while maintaining scalability. Additionally, we introduce a fault-driven evolution strategy, progressively increasing question complexity to push models toward handling more challenging video analysis scenarios. Experimental results demonstrate that VideoAutoArena effectively differentiates among state-of-the-art LMMs, providing insights into model strengths and areas for improvement. To further streamline our evaluation, we introduce VideoAutoBench as an auxiliary benchmark, where human annotators label winners in a subset of VideoAutoArena battles. We use GPT-4o as a judge to compare responses against these human-validated answers. Together, VideoAutoArena and VideoAutoBench offer a cost-effective, and scalable framework for evaluating LMMs in user-centric video analysis.
- Abstract(参考訳): 高度な映像解析機能を備えた大規模マルチモーダルモデル (LMM) が近年注目されている。
しかし、ほとんどの評価は、VideoMMEやLongVideoBenchのようなベンチマークのマルチチョイス質問のような従来の手法に依存している。
LMSYS Chatbot ArenaのフレームワークにインスパイアされたアリーナスタイルのベンチマークであるVideoAutoArenaを導入する。
VideoAutoArenaは、ユーザシミュレーションを利用して、ビデオ理解におけるモデルパフォーマンスを厳格に評価する、オープンエンドで適応的な質問を生成する。
このベンチマークは自動化されたスケーラブルな評価フレームワークを備えており、複数のLMM間での公正かつ継続的な比較のために修正されたELOレーティングシステムを備えている。
自動判定システムを検証するために,人間のアノテーションを慎重にキュレートしたサブセットを用いて「金の標準」を構築し,拡張性を維持しながら人間の判断に強く適合することを示す。
さらに、我々は、より困難なビデオ分析シナリオの処理に向けてモデルをプッシュするために、問題複雑性を徐々に増大させる、障害駆動型進化戦略を導入する。
実験の結果,VideoAutoArenaは最先端のLMMを効果的に差別化し,モデル強度と改善領域の洞察を与えることがわかった。
評価をさらに合理化するために,ビデオオートベンチを補助的ベンチマークとして導入し,ビデオオートアリーナバトルのサブセットにおいて,人間のアノテータが勝者をラベル付けする。
我々は、GPT-4oを審査員として、これらの評価された回答に対する反応を比較する。
VideoAutoArenaとVideoAutoBenchは共に、ユーザ中心のビデオ分析においてLMMを評価するための費用効率が高くスケーラブルなフレームワークを提供する。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering [6.088350050879401]
我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。
1)AutoEval-Videoは9つのスキルディメンションにまたがるオープンエンドなビデオクエストを構築し,認識能力,理解力,生成能力に対処する。
インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。
論文 参考訳(メタデータ) (2023-11-25T02:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。