論文の概要: ChineseVideoBench: Benchmarking Multi-modal Large Models for Chinese Video Question Answering
- arxiv url: http://arxiv.org/abs/2511.18399v1
- Date: Sun, 23 Nov 2025 10:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.821759
- Title: ChineseVideoBench: Benchmarking Multi-modal Large Models for Chinese Video Question Answering
- Title(参考訳): ChineseVideoBench:中国のビデオ質問に対するマルチモーダル大モデルのベンチマーク
- Authors: Yuxiang Nie, Han Wang, Yongjie Ye, Haiyang Yu, Weitao Jia, Tao Zeng, Hao Feng, Xiang Fei, Yang Li, Xiaohui Lv, Guozhi Tang, Jingqun Tang, Jinghui Lu, Zehui Dai, Jiacong Wang, Dingkang Yang, An-Lan Wang, Can Huang,
- Abstract要約: ChineseVideoBenchは、中国語ビデオ質問回答におけるMLLM(Multimodal Large Language Models)の評価のためのベンチマークである。
8つの主要なクラスと12のサブクラスから構成されており、深いビデオ理解と、中国の言語と文化の認識の両方を必要とするタスクを含んでいる。
Gemini 2.5 Proは77.9%、InternVL-38Bは最も競争力のあるオープンソースモデルである。
- 参考スコア(独自算出の注目度): 41.26674080292025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces ChineseVideoBench, a pioneering benchmark specifically designed for evaluating Multimodal Large Language Models (MLLMs) in Chinese Video Question Answering. The growing demand for sophisticated video analysis capabilities highlights the critical need for comprehensive, culturally-aware evaluation frameworks. ChineseVideoBench addresses this gap by providing a robust dataset and tailored evaluation metrics, enabling rigorous assessment of state-of-the-art MLLMs on complex Chinese video content. Specifically, ChineseVideoBench comprises 8 main classes and 12 sub-classes, encompassing tasks that demand both deep video understanding and nuanced Chinese linguistic and cultural awareness. Our empirical evaluations reveal that ChineseVideoBench presents a significant challenge to current MLLMs. Among the models assessed, Gemini 2.5 Pro achieves the highest performance with an overall score of 77.9%, while InternVL-38B emerges as the most competitive open-source model.
- Abstract(参考訳): 本稿では、中国語ビデオ質問回答におけるMLLM(Multimodal Large Language Models)の評価に特化して設計された先駆的ベンチマークである ChineseVideoBenchを紹介する。
高度なビデオ分析機能に対する需要の高まりは、包括的で文化的に認識された評価フレームワークに対する重要なニーズを浮き彫りにしている。
ChineseVideoBenchは、堅牢なデータセットと調整された評価指標を提供することで、複雑な中国のビデオコンテンツに対する最先端MLLMの厳密な評価を可能にすることで、このギャップに対処する。
特に、 ChineseVideoBenchは8つの主要なクラスと12のサブクラスから構成されており、深いビデオ理解と、中国の言語と文化の認識の両方を要求するタスクを含んでいる。
経験的評価の結果, ChineseVideoBench は現在のMLLM にとって重要な課題であることがわかった。
評価されたモデルの中で、Gemini 2.5 Proは77.9%のスコアで最高性能を達成し、InternVL-38Bは最も競争力のあるオープンソースモデルとして登場した。
関連論文リスト
- MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues [38.63457491325088]
マルチターン対話におけるMLLM評価のための総合的ビデオ理解ベンチマークMT-Video-Benchを紹介する。
具体的には、MT-Video-Benchは、主に知覚力と対話性に焦点を当てた6つのコア能力を評価し、987個の微調整されたマルチターン対話を包含する。
これらの機能は、インタラクティブスポーツ分析やマルチターンビデオベースのインテリジェントチューリングなど、現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-10-20T16:38:40Z) - VideoVista-CulturalLingo: 360$^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension [66.03062468036507]
本稿では,ビデオ理解における文化的,言語的,ドメイン分割の橋渡しを目的とした,最初のビデオ評価ベンチマークであるVideoVista-CulturalLingoを紹介する。
VideoVista-CulturalLingoには1,389の動画と3,134のQAペアが含まれています。
論文 参考訳(メタデータ) (2025-04-23T13:47:30Z) - "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文 参考訳(メタデータ) (2025-02-17T12:02:23Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [120.67048724315619]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks [63.09588102724274]
中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-07T11:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。