論文の概要: LEMON: How Well Do MLLMs Perform Temporal Multimodal Understanding on Instructional Videos?
- arxiv url: http://arxiv.org/abs/2601.20705v1
- Date: Tue, 27 Jan 2026 01:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.000803
- Title: LEMON: How Well Do MLLMs Perform Temporal Multimodal Understanding on Instructional Videos?
- Title(参考訳): レモン:MLLMは教育ビデオの時間的マルチモーダル理解をいかにうまく行うか?
- Authors: Zhuang Yu, Lei Shen, Jing Zhao, Shiliang Sun,
- Abstract要約: LEMON は MultimOdal uNderstanding のための講義ベース評価ベンチマークである。
LEMONは5つの規律と29のコースにまたがる2,277のビデオセグメントで構成され、平均時間は196.1秒である。
さらに6つの主要なタスクと12のサブタスクを含み、知覚から推論までの完全な認知スペクトルをカバーする。
- 参考スコア(独自算出の注目度): 35.00849293700674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models (MLLMs) have shown remarkable progress across vision, audio, and language tasks, yet their performance on long-form, knowledge-intensive, and temporally structured educational content remains largely unexplored. To bridge this gap, we introduce LEMON, a Lecture-based Evaluation benchmark for MultimOdal uNderstanding, focusing on STEM lecture videos that require long-horizon reasoning and cross-modal integration. LEMON comprises 2,277 video segments spanning 5 disciplines and 29 courses, with an average duration of 196.1 seconds, yielding 4,181 high-quality QA pairs, including 3,413 multiple-choice and 768 open-ended questions. Distinct from existing video benchmarks, LEMON features: (1) semantic richness and disciplinary density, (2) tightly coupled video-audio-text modalities, (3) explicit temporal and pedagogical structure, and (4) contextually linked multi-turn questioning. It further encompasses six major tasks and twelve subtasks, covering the full cognitive spectrum from perception to reasoning and then to generation. Comprehensive experiments reveal substantial performance gaps across tasks, highlighting that even state-of-the-art MLLMs like GPT-4o struggle with temporal reasoning and instructional prediction. We expect LEMON to serve as an extensible and challenging benchmark for advancing multimodal perception, reasoning, and generation in long-form instructional contents.
- Abstract(参考訳): 近年のマルチモーダル・大規模言語モデル(MLLM)は、視覚、音声、言語タスクにおいて顕著な進歩を見せている。
このギャップを埋めるために、LEMONはMultimOdal uNderstandingのための講義ベースの評価ベンチマークであり、長距離推論とクロスモーダル統合を必要とするSTEM講義ビデオに焦点を当てている。
LEMONは5つの規律と29のコースにまたがる2,277のビデオセグメントで構成され、平均時間は196.1秒であり、高品質のQAペアは4,181、マルチチョイスは3,413、オープンエンドは768である。
既存のビデオベンチマークとは別の特徴として,(1)意味的豊かさとディシプリナ密度,(2)密結合ビデオ・オーディオ・テキスト・モダリティ,(3)明示的時間的・教育的構造,(4)文脈的にリンクされたマルチターン質問などが挙げられる。
さらに6つの主要なタスクと12のサブタスクを含み、知覚から推論、そして生成までの完全な認知スペクトルをカバーする。
GPT-4oのような最先端のMLLMでさえ、時間的推論や教育的予測に苦戦している。
LEMONは多モーダルな知覚、推論、長文の指導内容の生成を促進するための拡張可能で挑戦的なベンチマークとして機能することを期待している。
関連論文リスト
- MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark [27.487587901232057]
0.5Bから40Bパラメータの90以上のオープンソースおよびプロプライエタリモデルを評価した。
本結果は,これらの講義で提示される認知的課題に対処する上で,現在のモデルが持つ限界を強調するものである。
論文 参考訳(メタデータ) (2025-04-20T17:58:46Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [120.67048724315619]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - MULTI: Multimodal Understanding Leaderboard with Text and Images [27.81157601147561]
そこで本研究では,中国のマルチモーダルデータセットであるMultiについて述べる。
マルチモデルは、画像テキスト理解、複雑な推論、知識リコールを含む実世界の検査基準を用いてモデルを評価する。
Qwen2-VL-72BはMulti-Eliteで76.9%,Multi-Eliteで53.1%の精度で評価された。
論文 参考訳(メタデータ) (2024-02-05T16:41:02Z) - Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos [42.32528440002539]
テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。
既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。
LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
論文 参考訳(メタデータ) (2023-12-28T16:54:21Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。