論文の概要: EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
- arxiv url: http://arxiv.org/abs/2403.10378v1
- Date: Fri, 15 Mar 2024 15:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:32:11.762532
- Title: EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
- Title(参考訳): EXAMS-V:視覚言語モデル評価のための多分野多言語マルチモーダルエクサムベンチマーク
- Authors: Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev, Preslav Nakov,
- Abstract要約: EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。
自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。
質問は7つの言語ファミリーから11の言語で行われます。
- 参考スコア(独自算出の注目度): 29.31649801849329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce EXAMS-V, a new challenging multi-discipline multimodal multilingual exam benchmark for evaluating vision language models. It consists of 20,932 multiple-choice questions across 20 school disciplines covering natural science, social science, and other miscellaneous studies, e.g., religion, fine arts, business, etc. EXAMS-V includes a variety of multimodal features such as text, images, tables, figures, diagrams, maps, scientific symbols, and equations. The questions come in 11 languages from 7 language families. Unlike existing benchmarks, EXAMS-V is uniquely curated by gathering school exam questions from various countries, with a variety of education systems. This distinctive approach calls for intricate reasoning across diverse languages and relies on region-specific knowledge. Solving the problems in the dataset requires advanced perception and joint reasoning over the text and the visual content of the image. Our evaluation results demonstrate that this is a challenging dataset, which is difficult even for advanced vision-text models such as GPT-4V and Gemini; this underscores the inherent complexity of the dataset and its significance as a future benchmark.
- Abstract(参考訳): EXAMS-Vは視覚言語モデルを評価するためのマルチディシプリルマルチモーダル多言語試験ベンチマークである。
自然科学、社会科学、その他の雑学(宗教、美術、ビジネスなど)を対象とする20の科目にわたる20,932の質問からなる。
EXAMS-Vには、テキスト、画像、テーブル、図、図、地図、科学記号、方程式など、さまざまなマルチモーダル機能が含まれている。
質問は7つの言語ファミリーから11の言語で行われます。
既存のベンチマークとは異なり、EXAMS-Vは様々な教育システムを備えた様々な国の学校試験の質問を収集することによって、独自にキュレーションされている。
この独特なアプローチは、多言語にわたる複雑な推論を要求し、地域固有の知識に依存している。
データセットの問題を解決するには、テキストと画像の視覚的内容に対する高度な認識と共同推論が必要である。
評価結果は,GPT-4VやGeminiのような高度な視覚テキストモデルにおいても困難なデータセットであることを示す。
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models [43.98941258781775]
我々は,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために,NTSEBenchという新しいデータセットを導入した。
このデータセットは、インドで実施されているNTSE試験から採取された26のカテゴリで合計4,642枚の画像からなる2,728の多重選択質問からなる。
論文 参考訳(メタデータ) (2024-07-15T01:21:56Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - VNHSGE: VietNamese High School Graduation Examination Dataset for Large
Language Models [0.0]
本稿では,大規模言語モデル(LLM)の評価専用に開発されたVNHSGEデータセットを紹介する。
このデータセットはベトナム国立高校卒業試験とそれに相当する9つの被験者を対象としている。
300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
論文 参考訳(メタデータ) (2023-05-20T14:13:08Z) - M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。
中国語の大規模言語モデルによって得られた知識を測定するために開発された。
71のタスクから20,477の質問を集めました。
論文 参考訳(メタデータ) (2023-05-17T14:56:31Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - EVJVQA Challenge: Multilingual Visual Question Answering [1.4641199499831683]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)の課題である。
EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答のためのベンチマークデータセットとして使用される。
本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。
論文 参考訳(メタデータ) (2023-02-23T02:38:39Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - EXAMS: A Multi-Subject High School Examinations Dataset for
Cross-Lingual and Multilingual Question Answering [22.926709247193724]
EXAMSは、高校試験のための多言語および多言語質問応答のための新しいベンチマークデータセットである。
我々は16言語で24,000以上の高品質の高校試験の質問を収集し、自然科学・社会科学の8つの言語家族と24の教科をカバーした。
論文 参考訳(メタデータ) (2020-11-05T20:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。