Fugu-MT 論文翻訳(概要): AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering

論文の概要: AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering

arxiv url: http://arxiv.org/abs/2311.14906v2
Date: Mon, 15 Jul 2024 16:42:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:44:20.732936
Title: AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering
Title（参考訳）: AutoEval-Video: オープンエンディングビデオ質問応答における大規模視覚言語モデルの自動ベンチマーク
Authors: Xiuyuan Chen, Yuan Lin, Yuchen Zhang, Weiran Huang,
Abstract要約: 我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。 1)AutoEval-Videoは9つのスキルディメンションにまたがるオープンエンドなビデオクエストを構築し,認識能力,理解力,生成能力に対処する。インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。
参考スコア（独自算出の注目度）: 6.088350050879401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel and challenging benchmark, AutoEval-Video, to comprehensively evaluate large vision-language models in open-ended video question answering. The comprehensiveness of AutoEval-Video is demonstrated in two aspects: 1) AutoEval-Video constructs open-ended video-questions across 9 skill dimensions, addressing capabilities of perception, comprehension, and generation. 2) AutoEval-Video contains newly collected videos that cover over 40 distinct themes. To efficiently evaluate responses to the open-ended questions, we employ an LLM-based evaluation approach, but instead of merely providing a reference answer, we annotate unique evaluation rules for every single instance (video-question pair). To maximize the robustness of these rules, we develop a novel adversarial annotation mechanism. By using instance-specific rules as prompt, GPT-4, as an automatic evaluator, can achieve a stable evaluation accuracy of around 97.0%, comparable to the 94.9% - 97.5% accuracy of a human evaluator. Furthermore, we assess the performance of eight large vision-language models on AutoEval-Video. Among them, GPT-4V(ision) significantly outperforms other models, achieving an accuracy of 32.2%. However, there is still substantial room for improvement compared to human accuracy of 72.8%. By conducting an extensive case study, we uncover several drawbacks of GPT-4V, such as limited temporal and dynamic comprehension, and overly general responses. Code is available at https://github.com/Xiuyuan-Chen/AutoEval-Video.
Abstract（参考訳）: 我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。 AutoEval-Videoの包括性は2つの側面で示される。 1)AutoEval-Videoは,9つのスキルディメンション,知覚能力,理解力,生成能力に対処するオープンエンドビデオクエストを構築する。 2)AutoEval-Videoには、40以上の異なるテーマをカバーした、新たに収集されたビデオが含まれている。オープンエンド質問に対する回答を効率よく評価するために,LLMに基づく評価手法を用いるが,単に参照回答を提供するのではなく,各インスタンス(ビデオ検索ペア)ごとに独自の評価ルールを注釈付けする。これらのルールのロバスト性を最大化するために,新しい対角的アノテーション機構を開発する。インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。さらに,AutoEval-Videoを用いた8つの大規模視覚言語モデルの性能評価を行った。 GPT-4V(ision)は他のモデルよりも大幅に優れ、精度は32.2%に達した。しかし、人間の精度は72.8%とかなり改善の余地がある。広範囲にわたるケーススタディにより、時間的・動的理解の制限や過度に一般的な反応など、GPT-4Vのいくつかの欠点が明らかになった。コードはhttps://github.com/Xiuyuan-Chen/AutoEval-Videoで入手できる。

関連論文リスト

HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
LOVE: Benchmarking and Evaluating Text-to-Video Generation and Video-to-Text Interpretation [46.994391428519776]
AI生成ビデオ評価のための包括的なデータセットとベンチマークであるAIGVE-60Kを提案する。本稿では,LMMに基づくAIGV評価尺度であるLOVEを提案する。
論文参考訳（メタデータ） (2025-05-17T17:49:26Z)
Empowering Agentic Video Analytics Systems with Video Language Models [16.962065998310223]
Video-Language Models (VLM)は、オープンなビデオ理解、推論、分析を可能にする可能性を提供する。 VLMの制限されたコンテキストウィンドウは、超長いビデオコンテンツを処理する際の課題を示す。本稿では,VLMを利用した映像分析システムであるAVAを紹介する。
論文参考訳（メタデータ） (2025-05-01T02:40:23Z)
SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文参考訳（メタデータ） (2025-04-08T06:00:28Z)
VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。 VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文参考訳（メタデータ） (2024-12-01T00:33:05Z)
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (2024-11-20T17:54:41Z)
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation [27.814374756146698]
VideoAutoArenaは、LMMのビデオ分析能力を自動評価するアリーナスタイルのベンチマークである。 VideoAutoArenaは、ユーザシミュレーションを利用して、ビデオ理解におけるモデルパフォーマンスを厳格に評価する、オープンエンドで適応的な質問を生成する。我々は、より困難なビデオ分析シナリオに対処するためにモデルをプッシュするために、障害駆動型進化戦略を導入し、徐々に疑問の複雑さを増す。
論文参考訳（メタデータ） (2024-11-20T12:48:34Z)
EVQAScore: Efficient Video Question Answering Data Evaluation [23.812020049901452]
本稿では,ビデオキャプションとビデオQAデータ品質の両方を評価するためにキーワード抽出を利用する参照フリー手法EVQAScoreを紹介する。提案手法は,Kendall相関32.8,Spearman相関42.3,従来のPAC-S++よりも4.7,5.9,動画キャプション評価5.9)。データ選択にEVQAScoreを用いることで、元のデータボリュームのわずか12.5%でSOTA結果を達成し、以前のSOTA手法であるPAC-Sと100%のデータより優れていた。
論文参考訳（メタデータ） (2024-11-11T12:11:36Z)
Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文参考訳（メタデータ） (2024-07-31T07:54:26Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
LingoQA: Visual Question Answering for Autonomous Driving [14.620546951115328]
本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。私たちのベンチマークでは、視覚言語モデルは、質問の59.6%に対して、人間の96.6%に対して真に反応する。
論文参考訳（メタデータ） (2023-12-21T18:40:34Z)
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文参考訳（メタデータ） (2023-11-27T18:59:58Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。