論文の概要: Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos
- arxiv url: http://arxiv.org/abs/2501.13826v1
- Date: Thu, 23 Jan 2025 16:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:23.264319
- Title: Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos
- Title(参考訳): Video-MMMU:多分野プロ向けビデオによる知識獲得の評価
- Authors: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu,
- Abstract要約: Video-MMMUは、ビデオから知識を取得し、活用するLMMの能力を評価するために設計されたベンチマークである。
Video-MMMUには、300のエキスパートレベルのビデオと、6つの分野にわたる900の人間による注釈付き質問が収集されている。
デルタ知識(Deltaknowledge)は、ビデオ視聴後の性能改善を定量化する。
- 参考スコア(独自算出の注目度): 44.36644075780221
- License:
- Abstract: Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for this learning process, facilitating a progression through these cognitive stages. However, existing video benchmarks fail to systematically evaluate the knowledge acquisition capabilities in Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU features a curated collection of 300 expert-level videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. A proposed knowledge gain metric, {\Delta}knowledge, quantifies improvement in performance after video viewing. Evaluation of LMMs reveals a steep decline in performance as cognitive demands increase and highlights a significant gap between human and model knowledge acquisition, underscoring the need for methods to enhance LMMs' capability to learn and adapt from videos.
- Abstract(参考訳): 人間は情報を理解すること、知識を理解すること、新しい問題を解決するために知識を適用することの3つの認知段階を通じて知識を得る。
ビデオは、この学習プロセスの効果的な媒体として機能し、これらの認知段階の進行を促進する。
しかし、既存のビデオベンチマークでは、LMM(Large Multimodal Models)の知識獲得能力を体系的に評価することができない。
このギャップに対処するために,ビデオから知識を取得し,活用するLMMの能力を評価するためのマルチモーダル・マルチディシプリナ・ベンチマークであるVideo-MMMUを導入する。
Video-MMMUには、300のエキスパートレベルのビデオと、900の人間による注釈付き質問が6つの分野にまたがって収集され、ステージに並んだ質問と回答のペア(知覚、理解、適応)を通じて知識の獲得を評価する。
提案した知識獲得指標である Delta}knowledge は,映像視聴後の性能改善を定量化する。
LMMの評価は、認知的要求が増加し、人間の知識獲得とモデル知識獲得の間に大きなギャップが浮き彫りになり、ビデオから学習し、適応するためのLMMの能力を高める方法の必要性が浮き彫りにされている。
関連論文リスト
- Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Measuring the Knowledge Acquisition-Utilization Gap in Pretrained
Language Models [26.342351417963965]
事前訓練された言語モデル(PLM)は、膨大な量の知識を取得する証拠を示している。
このパラメトリックな知識が、下流のタスクの実行に実際にどの程度使えるかは、まだ不明である。
PLMにおけるパラメトリック知識利用量を測定するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。