論文の概要: AutoEval-Video: An Automatic Benchmark for Assessing Large Vision
Language Models in Open-Ended Video Question Answering
- arxiv url: http://arxiv.org/abs/2311.14906v1
- Date: Sat, 25 Nov 2023 02:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:56:40.338116
- Title: AutoEval-Video: An Automatic Benchmark for Assessing Large Vision
Language Models in Open-Ended Video Question Answering
- Title(参考訳): AutoEval-Video: オープンエンディングビデオ質問応答における大規模視覚言語モデルの自動ベンチマーク
- Authors: Xiuyuan Chen, Yuan Lin, Yuchen Zhang, Weiran Huang
- Abstract要約: 本稿では,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための新しいベンチマークであるAutoEval-Videoを提案する。
1)AutoEval-Videoは9つのスキルディメンションにまたがるオープンエンドなビデオクエストを構築し,認識能力,理解力,生成能力に対処する。
インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。
- 参考スコア(独自算出の注目度): 6.651085046500276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel and challenging benchmark, AutoEval-Video, to
comprehensively evaluate large vision-language models in open-ended video
question answering. The comprehensiveness of AutoEval-Video is demonstrated in
two aspects: 1) AutoEval-Video constructs open-ended video-questions across 9
skill dimensions, addressing capabilities of perception, comprehension, and
generation. 2) AutoEval-Video contains newly collected videos that cover over
40 distinct themes. To efficiently evaluate responses to the open-ended
questions, we employ an LLM-based evaluation approach, but instead of merely
providing a reference answer, we annotate unique evaluation rules for every
single instance (video-question pair). To maximize the robustness of these
rules, we develop a novel adversarial annotation mechanism. By using
instance-specific rules as prompt, GPT-4, as an automatic evaluator, can
achieve a stable evaluation accuracy of around 97.0\%, comparable to the 94.9\%
- 97.5\% accuracy of a human evaluator. Furthermore, we assess the performance
of eight large vision-language models on AutoEval-Video. Among them,
GPT-4V(ision) significantly outperforms other models, achieving an accuracy of
32.2\%. However, there is still substantial room for improvement compared to
human accuracy of 72.8\%. By conducting an extensive case study, we uncover
several drawbacks of GPT-4V, such as limited temporal and dynamic
comprehension, and overly general responses. Code is available at
\href{https://github.com/Xiuyuan-Chen/AutoEval-Video}{\color{magenta}https://github.com/Xiuyuan-Chen/AutoEval-Video}.
- Abstract(参考訳): 本稿では,オープンエンドビデオ質問応答において,大規模視覚言語モデルの包括的評価を行うための,新しく挑戦的なベンチマークであるautoeval-videoを提案する。
AutoEval-Videoの包括性は2つの側面で示される。
1)自己評価ビデオは9つのスキル次元にまたがるオープンエンドビデオクエスチョーションを構築し,知覚,理解,生成の能力に対処している。
2)AutoEval-Videoには40以上のテーマをカバーしたビデオが新たに集められている。
オープンエンド質問に対する回答を効率よく評価するために,LLMに基づく評価手法を用いるが,単に参照回答を提供するのではなく,各インスタンス(ビデオ検索ペア)ごとに独自の評価ルールを注釈付けする。
これらのルールのロバスト性を最大化するために,新しい対角的アノテーション機構を開発する。
インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9\%から97.5\%に匹敵する、97.0\%の安定した評価精度を達成することができる。
さらに,8つの大規模視覚言語モデルの性能評価を行った。
GPT-4V(ision)は他のモデルよりも大幅に優れ、精度は32.2\%である。
しかし、人間の精度が72.8\%であるのに対して、改善の余地は依然として十分にある。
広範なケーススタディを行い,gpt-4vの限界時間的および動的理解,過度に一般的な応答など,いくつかの欠点を明らかにする。
コードは \href{https://github.com/Xiuyuan-Chen/AutoEval-Video}{\color{magenta}https://github.com/Xiuyuan-Chen/AutoEval-Video} で公開されている。
関連論文リスト
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation [27.814374756146698]
VideoAutoArenaは、LMMのビデオ分析能力を自動評価するアリーナスタイルのベンチマークである。
VideoAutoArenaは、ユーザシミュレーションを利用して、ビデオ理解におけるモデルパフォーマンスを厳格に評価する、オープンエンドで適応的な質問を生成する。
我々は、より困難なビデオ分析シナリオに対処するためにモデルをプッシュするために、障害駆動型進化戦略を導入し、徐々に疑問の複雑さを増す。
論文 参考訳(メタデータ) (2024-11-20T12:48:34Z) - EVQAScore: Efficient Video Question Answering Data Evaluation [23.812020049901452]
本稿では,ビデオキャプションとビデオQAデータ品質の両方を評価するためにキーワード抽出を利用する参照フリー手法EVQAScoreを紹介する。
提案手法は,Kendall相関32.8,Spearman相関42.3,従来のPAC-S++よりも4.7,5.9,動画キャプション評価5.9)。
データ選択にEVQAScoreを用いることで、元のデータボリュームのわずか12.5%でSOTA結果を達成し、以前のSOTA手法であるPAC-Sと100%のデータより優れていた。
論文 参考訳(メタデータ) (2024-11-11T12:11:36Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - LingoQA: Visual Question Answering for Autonomous Driving [14.620546951115328]
本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。
データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。
私たちのベンチマークでは、視覚言語モデルは、質問の59.6%に対して、人間の96.6%に対して真に反応する。
論文 参考訳(メタデータ) (2023-12-21T18:40:34Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。