論文の概要: Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2504.14693v1
- Date: Sun, 20 Apr 2025 17:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:46:28.670758
- Title: Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark
- Title(参考訳): Video-MMLU: 大規模多分野講義理解ベンチマーク
- Authors: Enxin Song, Wenhao Chai, Weili Xu, Jianwen Xie, Yuxuan Liu, Gaoang Wang,
- Abstract要約: 0.5Bから40Bパラメータの90以上のオープンソースおよびプロプライエタリモデルを評価した。
本結果は,これらの講義で提示される認知的課題に対処する上で,現在のモデルが持つ限界を強調するものである。
- 参考スコア(独自算出の注目度): 27.487587901232057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in language multimodal models (LMMs) for video have demonstrated their potential for understanding video content, yet the task of comprehending multi-discipline lectures remains largely unexplored. We introduce Video-MMLU, a massive benchmark designed to evaluate the capabilities of LMMs in understanding Multi-Discipline Lectures. We evaluate over 90 open-source and proprietary models, ranging from 0.5B to 40B parameters. Our results highlight the limitations of current models in addressing the cognitive challenges presented by these lectures, especially in tasks requiring both perception and reasoning. Additionally, we explore how the number of visual tokens and the large language models influence performance, offering insights into the interplay between multimodal perception and reasoning in lecture comprehension.
- Abstract(参考訳): ビデオ用言語マルチモーダルモデル(LMM)の最近の進歩は、ビデオコンテンツを理解する可能性を示しているが、多分野の講義を解釈する作業は、まだ明らかにされていない。
我々は,多科講義理解におけるLMMの能力を評価するための大規模ベンチマークであるVideo-MMLUを紹介する。
0.5Bから40Bパラメータの範囲で90以上のオープンソースおよびプロプライエタリモデルを評価した。
本研究は,これらの講義で提示される認知的課題,特に知覚と推論の両方を必要とする課題に対処する上で,現在のモデルが持つ限界を強調した。
さらに、視覚的トークンの数と大きな言語モデルがパフォーマンスにどのように影響するかを考察し、講義理解におけるマルチモーダル認識と推論の相互作用についての洞察を提供する。
関連論文リスト
- Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos [44.36644075780221]
Video-MMMUは、ビデオから知識を取得し、活用するLMMの能力を評価するために設計されたベンチマークである。
Video-MMMUには、300のエキスパートレベルのビデオと、6つの分野にわたる900の人間による注釈付き質問が収集されている。
デルタ知識(Deltaknowledge)は、ビデオ視聴後の性能改善を定量化する。
論文 参考訳(メタデータ) (2025-01-23T16:51:47Z) - Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。
これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。
本調査は,LLMの最近の進歩を概観する。
論文 参考訳(メタデータ) (2024-12-04T11:14:06Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding [52.696422425058245]
視覚的エンコーダを備えた多モード大言語モデル(LLM)は、視覚的理解タスクにおいて有望な性能を示した。
本稿では、静止画像と短い映像の理解と比較して、長いビデオ理解によって生じる実質的な違いと固有の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-09-27T17:38:36Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。