論文の概要: ChineseVideoBench: Benchmarking Multi-modal Large Models for Chinese Video Question Answering
- arxiv url: http://arxiv.org/abs/2511.18399v1
- Date: Sun, 23 Nov 2025 10:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.821759
- Title: ChineseVideoBench: Benchmarking Multi-modal Large Models for Chinese Video Question Answering
- Title(参考訳): ChineseVideoBench:中国のビデオ質問に対するマルチモーダル大モデルのベンチマーク
- Authors: Yuxiang Nie, Han Wang, Yongjie Ye, Haiyang Yu, Weitao Jia, Tao Zeng, Hao Feng, Xiang Fei, Yang Li, Xiaohui Lv, Guozhi Tang, Jingqun Tang, Jinghui Lu, Zehui Dai, Jiacong Wang, Dingkang Yang, An-Lan Wang, Can Huang,
- Abstract要約: ChineseVideoBenchは、中国語ビデオ質問回答におけるMLLM(Multimodal Large Language Models)の評価のためのベンチマークである。
8つの主要なクラスと12のサブクラスから構成されており、深いビデオ理解と、中国の言語と文化の認識の両方を必要とするタスクを含んでいる。
Gemini 2.5 Proは77.9%、InternVL-38Bは最も競争力のあるオープンソースモデルである。
- 参考スコア(独自算出の注目度): 41.26674080292025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces ChineseVideoBench, a pioneering benchmark specifically designed for evaluating Multimodal Large Language Models (MLLMs) in Chinese Video Question Answering. The growing demand for sophisticated video analysis capabilities highlights the critical need for comprehensive, culturally-aware evaluation frameworks. ChineseVideoBench addresses this gap by providing a robust dataset and tailored evaluation metrics, enabling rigorous assessment of state-of-the-art MLLMs on complex Chinese video content. Specifically, ChineseVideoBench comprises 8 main classes and 12 sub-classes, encompassing tasks that demand both deep video understanding and nuanced Chinese linguistic and cultural awareness. Our empirical evaluations reveal that ChineseVideoBench presents a significant challenge to current MLLMs. Among the models assessed, Gemini 2.5 Pro achieves the highest performance with an overall score of 77.9%, while InternVL-38B emerges as the most competitive open-source model.
- Abstract(参考訳): 本稿では、中国語ビデオ質問回答におけるMLLM(Multimodal Large Language Models)の評価に特化して設計された先駆的ベンチマークである ChineseVideoBenchを紹介する。
高度なビデオ分析機能に対する需要の高まりは、包括的で文化的に認識された評価フレームワークに対する重要なニーズを浮き彫りにしている。
ChineseVideoBenchは、堅牢なデータセットと調整された評価指標を提供することで、複雑な中国のビデオコンテンツに対する最先端MLLMの厳密な評価を可能にすることで、このギャップに対処する。
特に、 ChineseVideoBenchは8つの主要なクラスと12のサブクラスから構成されており、深いビデオ理解と、中国の言語と文化の認識の両方を要求するタスクを含んでいる。
経験的評価の結果, ChineseVideoBench は現在のMLLM にとって重要な課題であることがわかった。
評価されたモデルの中で、Gemini 2.5 Proは77.9%のスコアで最高性能を達成し、InternVL-38Bは最も競争力のあるオープンソースモデルとして登場した。
関連論文リスト
- MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文 参考訳(メタデータ) (2025-02-17T12:02:23Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [120.67048724315619]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks [63.09588102724274]
中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-07T11:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。