論文の概要: EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams
- arxiv url: http://arxiv.org/abs/2603.27223v1
- Date: Sat, 28 Mar 2026 10:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.852637
- Title: EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams
- Title(参考訳): EuraGovExam - 実世界のシビルサービスエグザムの多言語マルチモーダルベンチマーク
- Authors: JaeSeong Kim, Chaehwan Lim, Sang Hyun Gil, Suan Lee,
- Abstract要約: EuraGovExamは、ユーラシアの5つの地域における実際の公務員試験から得られたベンチマークである。
データセットには17の学術および行政領域をカバーする、8,000以上の高解像度スキャンされた多重選択質問が含まれている。
また、e-governance、パブリックセクター文書分析、公平な試験準備における実践的な応用もサポートする。
- 参考スコア(独自算出の注目度): 0.8399688944263844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EuraGovExam, a multilingual and multimodal benchmark sourced from real-world civil service examinations across five representative Eurasian regions: South Korea, Japan, Taiwan, India, and the European Union. Designed to reflect the authentic complexity of public-sector assessments, the dataset contains over 8,000 high-resolution scanned multiple-choice questions covering 17 diverse academic and administrative domains. Unlike existing benchmarks, EuraGovExam embeds all question content--including problem statements, answer choices, and visual elements--within a single image, providing only a minimal standardized instruction for answer formatting. This design demands that models perform layout-aware, cross-lingual reasoning directly from visual input. All items are drawn from real exam documents, preserving rich visual structures such as tables, multilingual typography, and form-like layouts. Evaluation results show that even state-of-the-art vision-language models (VLMs) achieve only 86% accuracy, underscoring the benchmark's difficulty and its power to diagnose the limitations of current models. By emphasizing cultural realism, visual complexity, and linguistic diversity, EuraGovExam establishes a new standard for evaluating VLMs in high-stakes, multilingual, image-grounded settings. It also supports practical applications in e-governance, public-sector document analysis, and equitable exam preparation.
- Abstract(参考訳): EuraGovExamは、韓国、日本、台湾、インド、および欧州連合(EU)の5つの代表的なユーラシア地域における実世界の公務員試験から得られたマルチリンガルおよびマルチモーダルベンチマークである。
パブリックセクター評価の真の複雑さを反映して設計されたこのデータセットには、17の学術的および行政的な領域をカバーする、8,000以上の高解像度のスキャンされた多重選択質問が含まれている。
既存のベンチマークとは異なり、EuraGovExamは問題ステートメント、答えの選択、視覚要素を含むすべての質問コンテンツを単一のイメージに埋め込んでおり、回答フォーマッティングの最小限の標準命令しか提供していない。
この設計では、モデルが視覚入力から直接レイアウト対応の言語間推論を行う必要がある。
全ての項目は実際の試験文書から抽出され、表、多言語タイポグラフィー、フォームのようなレイアウトなどのリッチな視覚構造が保存される。
評価の結果、最先端のビジョン言語モデル(VLM)でさえ86%の精度しか達成できず、ベンチマークの難しさと現在のモデルの限界を診断する能力が強調されている。
文化リアリズム、視覚的複雑さ、言語多様性を強調することで、EuraGovExamはVLMを評価するための新しい標準を確立している。
また、e-governance、パブリックセクター文書分析、公平な試験準備における実践的な応用もサポートする。
関連論文リスト
- SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia [40.4434142867308]
東南アジア11言語を対象に,文書解析とテキスト中心視覚質問応答(TEC-VQA)を共同で評価するベンチマークSEA-Visionを紹介する。
SEA-Visionには、9つの代表的なドキュメントタイプからページを解析する15,234のドキュメントが含まれている。
また、テキスト認識、数値計算、比較分析、論理的推論、空間的理解を探索する7,496のTEC-VQA質問応答ペアも提供する。
論文 参考訳(メタデータ) (2026-03-16T15:21:12Z) - Multimodal Evaluation of Russian-language Architectures [88.00147763684451]
本稿では,ロシアの建築におけるオープンなマルチモーダル評価フレームワークであるMera Multiを紹介する。
ベンチマークはインストラクションベースで、デフォルトのテキスト、画像、オーディオ、ビデオモダリティを含んでいる。
Mera Multiは、マルチモーダルベンチマークを構築するための複製可能な方法論を提供する。
論文 参考訳(メタデータ) (2025-11-19T15:43:53Z) - PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models [13.316431293058763]
PISA-Benchは、専門家が作成したPISAテストの英語の例から得られたベンチマークである。
それぞれの例は、人間によって抽出された指示、質問、回答オプション、および質問タイプカテゴリに富んだ画像で構成されている。
PISA-Bench上での最先端のビジョン言語モデルの評価を行い、特に小さなモデル(20Bパラメータ)では高いテストスコアが得られないことを見出した。
論文 参考訳(メタデータ) (2025-10-27T11:00:45Z) - BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.31649801849329]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。
自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。
質問は7つの言語ファミリーから11の言語で行われます。
論文 参考訳(メタデータ) (2024-03-15T15:08:39Z) - Evaluating GPT-4's Vision Capabilities on Brazilian University Admission
Exams [14.801853435122908]
本稿では,文章要素と視覚要素の両方を組み込んだ,入学試験における言語モデルの評価フレームワークを提案する。
ブラジルの大学が採用している入学試験であるExame Nacional do Ensino M'edio(ENEM)の2つの最新版を評価した。
ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。
論文 参考訳(メタデータ) (2023-11-23T19:20:59Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。