Fugu-MT 論文翻訳(概要): VLM-Eval: A General Evaluation on Video Large Language Models

論文の概要: VLM-Eval: A General Evaluation on Video Large Language Models

arxiv url: http://arxiv.org/abs/2311.11865v1
Date: Mon, 20 Nov 2023 16:02:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 18:17:31.937727
Title: VLM-Eval: A General Evaluation on Video Large Language Models
Title（参考訳）: VLM-Eval:ビデオ大言語モデルに関する一般的な評価
Authors: Shuailin Li, Yuang Zhang, Yucheng Zhao, Qiuyue Wang, Fan Jia, Yingfei Liu, Tiancai Wang
Abstract要約: キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
参考スコア（独自算出の注目度）: 16.92780012093112
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite the rapid development of video Large Language Models (LLMs), a comprehensive evaluation is still absent. In this paper, we introduce a unified evaluation that encompasses multiple video tasks, including captioning, question and answering, retrieval, and action recognition. In addition to conventional metrics, we showcase how GPT-based evaluation can match human-like performance in assessing response quality across multiple aspects. We propose a simple baseline: Video-LLaVA, which uses a single linear projection and outperforms existing video LLMs. Finally, we evaluate video LLMs beyond academic datasets, which show encouraging recognition and reasoning capabilities in driving scenarios with only hundreds of video-instruction pairs for fine-tuning. We hope our work can serve as a unified evaluation for video LLMs, and help expand more practical scenarios. The evaluation code will be available soon.
Abstract（参考訳）: ビデオLarge Language Models (LLM) の急速な開発にもかかわらず、包括的な評価はいまだに存在しない。本稿では,キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統一的な評価手法を提案する。従来の指標に加えて, GPTによる評価が, 複数の側面にわたる応答品質評価において, 人為的な性能とどのように一致しているかを示す。本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。最後に,学習データセットを超越したビデオLLMを評価し,数百対のビデオ指導ペアだけでシナリオを駆動する際の認識と推論能力を示す。私たちの仕事がビデオllmの統一的な評価となり、より実用的なシナリオの拡大に役立つことを願っています。評価コードはもうすぐ提供される。

関連論文リスト

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos [5.529147924182393]
我々は,AIGCビデオ上でMLLMの能力を総合的に評価するために,4つのタスクコヒーレンス検証,エラー認識,エラー型検出,推論評価を導入するVF-Evalという新しいベンチマークを提案する。 VF-Eval上での13のフロンティアMLLMを評価し、最高のパフォーマンスモデルであるGPT-4.1でさえ、全てのタスクにおいて一貫して優れたパフォーマンスを達成するのに苦労していることを発見した。
論文参考訳（メタデータ） (2025-05-29T17:31:13Z)
SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。 $textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文参考訳（メタデータ） (2024-12-23T15:13:56Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文参考訳（メタデータ） (2023-06-15T16:39:24Z)
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。大規模なVidL事前学習による各種ベースライン法の評価を行った。我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文参考訳（メタデータ） (2021-06-08T18:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。