Fugu-MT 論文翻訳(概要): EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

論文の概要: EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

arxiv url: http://arxiv.org/abs/2403.10378v1
Date: Fri, 15 Mar 2024 15:08:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 16:32:11.762532
Title: EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
Title（参考訳）: EXAMS-V:視覚言語モデル評価のための多分野多言語マルチモーダルエクサムベンチマーク
Authors: Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev, Preslav Nakov,
Abstract要約: EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。質問は7つの言語ファミリーから11の言語で行われます。
参考スコア（独自算出の注目度）: 29.31649801849329
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce EXAMS-V, a new challenging multi-discipline multimodal multilingual exam benchmark for evaluating vision language models. It consists of 20,932 multiple-choice questions across 20 school disciplines covering natural science, social science, and other miscellaneous studies, e.g., religion, fine arts, business, etc. EXAMS-V includes a variety of multimodal features such as text, images, tables, figures, diagrams, maps, scientific symbols, and equations. The questions come in 11 languages from 7 language families. Unlike existing benchmarks, EXAMS-V is uniquely curated by gathering school exam questions from various countries, with a variety of education systems. This distinctive approach calls for intricate reasoning across diverse languages and relies on region-specific knowledge. Solving the problems in the dataset requires advanced perception and joint reasoning over the text and the visual content of the image. Our evaluation results demonstrate that this is a challenging dataset, which is difficult even for advanced vision-text models such as GPT-4V and Gemini; this underscores the inherent complexity of the dataset and its significance as a future benchmark.
Abstract（参考訳）: EXAMS-Vは視覚言語モデルを評価するためのマルチディシプリルマルチモーダル多言語試験ベンチマークである。自然科学、社会科学、その他の雑学(宗教、美術、ビジネスなど)を対象とする20の科目にわたる20,932の質問からなる。 EXAMS-Vには、テキスト、画像、テーブル、図、図、地図、科学記号、方程式など、さまざまなマルチモーダル機能が含まれている。質問は7つの言語ファミリーから11の言語で行われます。既存のベンチマークとは異なり、EXAMS-Vは様々な教育システムを備えた様々な国の学校試験の質問を収集することによって、独自にキュレーションされている。この独特なアプローチは、多言語にわたる複雑な推論を要求し、地域固有の知識に依存している。データセットの問題を解決するには、テキストと画像の視覚的内容に対する高度な認識と共同推論が必要である。評価結果は,GPT-4VやGeminiのような高度な視覚テキストモデルにおいても困難なデータセットであることを示す。

関連論文リスト

VLM@school -- Evaluation of AI image understanding on German middle school knowledge [0.0]
本稿では、視覚言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを提案する。このデータセットは、数学、歴史、生物学、宗教を含む9つの領域にまたがる実際の中学カリキュラムから導かれる。我々は,複数の次元にわたる最先端のオープンウェイトVLM13種の評価を行った。
論文参考訳（メタデータ） (2025-06-13T09:20:41Z)
Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation [20.109615198034394]
視覚言語モデルの多言語評価において,Kaleidoscopeをこれまでで最も包括的な評価ベンチマークとして提案する。 Kaleidoscopeは18の言語と14の異なる主題をカバーする。トップパフォーマンスの多言語視覚言語モデルを評価し、低リソース言語や複雑なマルチモーダルシナリオでは性能が良くないことを示した。
論文参考訳（メタデータ） (2025-04-09T17:43:16Z)
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [74.4821011648997]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のために設計されたベンチマークである。視覚言語モデル(VLM)を2つのタスクで評価する。言語と視覚の関係を混乱させようとする12の推論カテゴリを考察する。
論文参考訳（メタデータ） (2025-02-24T09:25:51Z)
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:11:49Z)
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models [43.98941258781775]
我々は,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために,NTSEBenchという新しいデータセットを導入した。このデータセットは、インドで実施されているNTSE試験から採取された26のカテゴリで合計4,642枚の画像からなる2,728の多重選択質問からなる。
論文参考訳（メタデータ） (2024-07-15T01:21:56Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文参考訳（メタデータ） (2023-06-08T13:21:29Z)
VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models [0.0]
本稿では,大規模言語モデル(LLM)の評価専用に開発されたVNHSGEデータセットを紹介する。このデータセットはベトナム国立高校卒業試験とそれに相当する9つの被験者を対象としている。 300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
論文参考訳（メタデータ） (2023-05-20T14:13:08Z)
M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。中国語の大規模言語モデルによって得られた知識を測定するために開発された。 71のタスクから20,477の質問を集めました。
論文参考訳（メタデータ） (2023-05-17T14:56:31Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
EVJVQA Challenge: Multilingual Visual Question Answering [1.4641199499831683]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)の課題である。 EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答のためのベンチマークデータセットとして使用される。本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。
論文参考訳（メタデータ） (2023-02-23T02:38:39Z)
Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (2022-08-17T05:30:18Z)
EXAMS: A Multi-Subject High School Examinations Dataset for Cross-Lingual and Multilingual Question Answering [22.926709247193724]
EXAMSは、高校試験のための多言語および多言語質問応答のための新しいベンチマークデータセットである。我々は16言語で24,000以上の高品質の高校試験の質問を収集し、自然科学・社会科学の8つの言語家族と24の教科をカバーした。
論文参考訳（メタデータ） (2020-11-05T20:06:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。