論文の概要: GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models
Evaluation
- arxiv url: http://arxiv.org/abs/2402.15745v1
- Date: Sat, 24 Feb 2024 06:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:11:58.985746
- Title: GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models
Evaluation
- Title(参考訳): ガオカオMM:中国のマルチモーダルモデル評価のための人間レベルベンチマーク
- Authors: Yi Zong, Xipeng Qiu
- Abstract要約: LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。
中国大学入学試験(GAokao-MM)に基づくマルチモーダルベンチマークであるGAokao-MMを提案する。
GPT-4-Vison(48.1%)、Qwen-VL-Plus(41.2%)、Gemini-Pro-Vision(35.1%)が上位3位である。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Large Vision-Language Models (LVLMs) have demonstrated great abilities in
image perception and language understanding. However, existing multimodal
benchmarks focus on primary perception abilities and commonsense knowledge
which are insufficient to reflect the comprehensive capabilities of LVLMs. We
propose GAOKAO-MM, a multimodal benchmark based on the Chinese College Entrance
Examination (GAOKAO), comprising of 8 subjects and 12 types of images, such as
diagrams, function graphs, maps and photos. GAOKAO-MM derives from native
Chinese context and sets human-level requirements for the model's abilities,
including perception, understanding, knowledge and reasoning. We evaluate 10
LVLMs and find that the accuracies of all of them are lower than 50%, with
GPT-4-Vison (48.1%), Qwen-VL-Plus (41.2%) and Gemini-Pro-Vision (35.1%) ranking
in the top three positions. The results of our multi-dimension analysis
indicate that LVLMs have moderate distance towards Artificial General
Intelligence (AGI) and provide insights facilitating the development of
multilingual LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。
しかし、既存のマルチモーダルベンチマークでは、LVLMの包括的な能力を反映するには不十分な一次認識能力と常識知識に焦点が当てられている。
本研究では,中国の大学入学試験(gaokao)に基づくマルチモーダルベンチマークであるgaokao-mmを提案する。
GAokaO-MMは中国固有の文脈から派生し、知覚、理解、知識、推論を含むモデルの能力に対する人間レベルの要件を設定する。
10のlvlmを評価し,gpt-4-vison (48.1%), qwen-vl-plus (41.2%), gemini-pro-vision (35.1%) を上位3位に挙げた。
多次元解析の結果,LVLMはAI(Artificial General Intelligence, AGI)に適度な距離を持ち,多言語LVLMの開発を促進する知見が得られた。
関連論文リスト
- Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - On Large Uni- and Multi-modal Models for Unsupervised Classification of Social Media Images: Nature's Contribution to People as a case study [1.7736307382785161]
本研究は、ソーシャルメディアイメージを予め定義された多くのクラスにマッピングするための様々なアプローチを提案し、分析し、比較する。
事例研究として、人間と自然の相互作用を理解するという問題、いわゆる自然の人への貢献、文化生態系サービス(CES)について考察する。
我々の実験によると、95%以上の精度で高い性能のアプローチでは、まだ小さなラベル付きデータセットを作成する必要がある。
論文 参考訳(メタデータ) (2024-09-30T23:04:55Z) - AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
新興中国ビジョンランゲージモデル(VLM)の総合的アライメントベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。
評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。
論文 参考訳(メタデータ) (2024-06-13T16:30:14Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。