論文の概要: MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
- arxiv url: http://arxiv.org/abs/2510.17722v1
- Date: Mon, 20 Oct 2025 16:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.531184
- Title: MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
- Title(参考訳): MT-Video-Bench:多言語対話におけるマルチモーダルLLMの評価のためのホロスティックビデオ理解ベンチマーク
- Authors: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu,
- Abstract要約: マルチターン対話におけるMLLM評価のための総合的ビデオ理解ベンチマークMT-Video-Benchを紹介する。
具体的には、MT-Video-Benchは、主に知覚力と対話性に焦点を当てた6つのコア能力を評価し、987個の微調整されたマルチターン対話を包含する。
これらの機能は、インタラクティブスポーツ分析やマルチターンビデオベースのインテリジェントチューリングなど、現実世界のアプリケーションと厳格に一致している。
- 参考スコア(独自算出の注目度): 38.63457491325088
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI's ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses six core competencies that focus on perceptivity and interactivity, encompassing 987 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.
- Abstract(参考訳): 最近のMLLM(Multimodal Large Language Models)の開発は、視覚的モダリティを理解するAIの能力を大幅に進歩させた。
しかし、既存の評価ベンチマークは、実世界のシナリオにおけるマルチターン対話の複雑さを見越して、シングルターン質問応答に限られている。
このギャップを埋めるために,マルチターン対話におけるMLLM評価のための総合的ビデオ理解ベンチマークMT-Video-Benchを導入する。
具体的には、MT-Video-Benchは、主に知覚と対話性に焦点を当てた6つのコア能力を評価します。
これらの機能は、インタラクティブスポーツ分析やマルチターンビデオベースのインテリジェントチューリングなど、現実世界のアプリケーションと厳格に一致している。
MT-Video-Benchでは,様々な最先端のオープンソースおよびクローズドソースMLLMを広範囲に評価し,その性能差とマルチターンビデオ対話処理の限界を明らかにした。
ベンチマークは、将来の研究を促進するために公開されます。
関連論文リスト
- MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark [27.487587901232057]
0.5Bから40Bパラメータの90以上のオープンソースおよびプロプライエタリモデルを評価した。
本結果は,これらの講義で提示される認知的課題に対処する上で,現在のモデルが持つ限界を強調するものである。
論文 参考訳(メタデータ) (2025-04-20T17:58:46Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。