論文の概要: PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.24792v1
- Date: Mon, 27 Oct 2025 11:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.495274
- Title: PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models
- Title(参考訳): PISA-Bench:視覚言語モデル評価のための多言語・多モーダル指標としてのPISA指標
- Authors: Patrick Haller, Fabio Barth, Jonas Golde, Georg Rehm, Alan Akbik,
- Abstract要約: PISA-Benchは、専門家が作成したPISAテストの英語の例から得られたベンチマークである。
それぞれの例は、人間によって抽出された指示、質問、回答オプション、および質問タイプカテゴリに富んだ画像で構成されている。
PISA-Bench上での最先端のビジョン言語モデルの評価を行い、特に小さなモデル(20Bパラメータ)では高いテストスコアが得られないことを見出した。
- 参考スコア(独自算出の注目度): 13.316431293058763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated remarkable progress in multimodal reasoning. However, existing benchmarks remain limited in terms of high-quality, human-verified examples. Many current datasets rely on synthetically generated content by large language models (LLMs). Furthermore, most datasets are limited to English, as manual quality assurance of translated samples is time-consuming and costly. To fill this gap, we introduce PISA-Bench, a multilingual benchmark derived from English examples of the expert-created PISA tests, a unified framework for the assessment of student competencies in over eighty countries. Each example consists of human-extracted instructions, questions, answer options, and images, enriched with question type categories, and has been translated from English into five additional languages (Spanish, German, Chinese, French, and Italian), resulting in a fully parallel corpus covering six languages. We evaluate state-of-the-art vision-language models on PISA-Bench and find that especially small models (<20B parameters) fail to achieve high test scores. We further find substantial performance degradation on non-English splits as well as high error-rates when models are tasked with spatial and geometric reasoning. By releasing the dataset and evaluation framework, we provide a resource for advancing research on multilingual multimodal reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は多モーダル推論において顕著な進歩を示している。
しかしながら、既存のベンチマークは、高品質で人間認証された例の点で制限されている。
多くの現在のデータセットは、大きな言語モデル(LLM)によって合成的に生成されたコンテンツに依存している。
さらに、ほとんどのデータセットは英語に限られており、翻訳されたサンプルのマニュアル品質保証には時間と費用がかかる。
このギャップを埋めるために、80か国以上の学生能力評価のための統一的な枠組みであるPISA-Benchという、専門家が作成したPISAテストの英語例から派生した多言語ベンチマークを紹介した。
それぞれの例は、人間によって抽出された指示、質問、答えの選択肢、およびイメージで構成されており、質問タイプカテゴリーが充実しており、英語から追加の5つの言語(スペイン語、ドイツ語、中国語、フランス語、イタリア語)に翻訳され、6つの言語をカバーする完全に平行なコーパスとなっている。
PISA-Bench上での最先端のビジョン言語モデルの評価を行い、特に小さなモデル(<20Bパラメータ)では高いテストスコアが得られないことを見出した。
さらに、空間的および幾何学的推論を行う場合、非英語分割の性能劣化と高い誤差率を見いだす。
データセットと評価フレームワークをリリースすることにより、多言語多モーダル推論の研究を進めるためのリソースを提供する。
関連論文リスト
- MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。
エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。
我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。