論文の概要: VLM@school -- Evaluation of AI image understanding on German middle school knowledge
- arxiv url: http://arxiv.org/abs/2506.11604v2
- Date: Fri, 27 Jun 2025 10:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 15:06:58.941328
- Title: VLM@school -- Evaluation of AI image understanding on German middle school knowledge
- Title(参考訳): VLM@school -- ドイツ中学生の知識に基づくAI画像理解の評価
- Authors: René Peinl, Vincent Tischler,
- Abstract要約: 本稿では、視覚言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを提案する。
このデータセットは、数学、歴史、生物学、宗教を含む9つの領域にまたがる実際の中学カリキュラムから導かれる。
我々は,複数の次元にわたる最先端のオープンウェイトVLM13種の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a novel benchmark dataset designed to evaluate the capabilities of Vision Language Models (VLMs) on tasks that combine visual reasoning with subject-specific background knowledge in the German language. In contrast to widely used English-language benchmarks that often rely on artificially difficult or decontextualized problems, this dataset draws from real middle school curricula across nine domains including mathematics, history, biology, and religion. The benchmark includes over 2,000 open-ended questions grounded in 486 images, ensuring that models must integrate visual interpretation with factual reasoning rather than rely on superficial textual cues. We evaluate thirteen state-of-the-art open-weight VLMs across multiple dimensions, including domain-specific accuracy and performance on adversarial crafted questions. Our findings reveal that even the strongest models achieve less than 45% overall accuracy, with particularly poor performance in music, mathematics, and adversarial settings. Furthermore, the results indicate significant discrepancies between success on popular benchmarks and real-world multimodal understanding. We conclude that middle school-level tasks offer a meaningful and underutilized avenue for stress-testing VLMs, especially in non-English contexts. The dataset and evaluation protocol serve as a rigorous testbed to better understand and improve the visual and linguistic reasoning capabilities of future AI systems.
- Abstract(参考訳): 本稿では,視覚的推論とドイツ語の主題固有の背景知識を組み合わせたタスクにおいて,視覚言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを提案する。
人工的に難しい問題や非文脈化の問題にしばしば依存する広く使われている英語のベンチマークとは対照的に、このデータセットは数学、歴史、生物学、宗教を含む9つの領域にわたる実際の中学カリキュラムから導かれる。
このベンチマークには、486の画像に基づいた2000以上のオープンエンドの質問が含まれており、モデルは表面的なテキストの手がかりに頼るのではなく、現実の推論と視覚的な解釈を統合する必要がある。
我々は,複数の次元にわたる最先端のオープンウェイトVLM13種の評価を行った。
以上の結果から,最強モデルでさえ総合的精度は45%以下であり,特に音楽,数学,対角的設定では性能が劣っていることが明らかとなった。
さらに,この結果から,一般的なベンチマークにおける成功と実世界のマルチモーダル理解との間に大きな相違があることが示唆された。
我々は、中学レベルのタスクは、特に英語以外の文脈において、ストレステストVLMに意味があり、未利用の道を提供すると結論付けている。
データセットと評価プロトコルは、将来のAIシステムの視覚的および言語的推論能力をよりよく理解し改善するための厳格なテストベッドとして機能する。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - InsightVision: A Comprehensive, Multi-Level Chinese-based Benchmark for Evaluating Implicit Visual Semantics in Large Vision Language Models [30.986157664865534]
画像中の暗黙の意味の理解を評価するための,総合的,多レベルな中国語ベースのベンチマークを初めて紹介する。
このベンチマークは、表面レベルのコンテンツ理解、象徴的な意味解釈、背景知識理解、暗黙的な意味理解の4つのサブタスクに分類される。
このベンチマークを用いて、15個のオープンソースの大規模視覚言語モデル (LVLM) と GPT-4o を評価し、人間のパフォーマンスに最も優れたモデルラグでさえ、暗黙的な意味を理解するのに約14%遅れていることを明らかにする。
論文 参考訳(メタデータ) (2025-02-19T13:42:37Z) - ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian [0.0]
本稿では,ウクライナの標準教育試験システムによる実際の試験課題に基づくZNO-Evalベンチマークを提案する。
それは、異なるドメインと複雑さにわたる推論能力の徹底的な分析への道を開く。
GPT-3.5-Turbo、GPT-4-Turbo、Mistral Large、Claude 3 Opus、Gemini-1.5 Proなど、よく知られた言語モデルの評価。
論文 参考訳(メタデータ) (2025-01-12T04:49:06Z) - NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models [43.98941258781775]
我々は,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために設計された新しいデータセットNTSEBenchを紹介する。
データセットには2728の質問があり、合計4,642の画像が26種類に分類されている。
これらの質問は、インドのNTSE試験から引き出され、視覚的およびテキスト的一般適性の問題が混在している。
論文 参考訳(メタデータ) (2024-07-15T01:21:56Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。