論文の概要: ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?
- arxiv url: http://arxiv.org/abs/2508.13680v1
- Date: Tue, 19 Aug 2025 09:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.880193
- Title: ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?
- Title(参考訳): ViExam: ベトナムのマルチモーダルエクサム問題における視覚言語モデルは人間より優れているか?
- Authors: Vy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim,
- Abstract要約: 視覚言語モデル(VLM)は、英語のマルチモーダルタスクにおいて顕著な能力を示す。
本研究は,VLMが実世界の言語間マルチモーダル推論を扱えるかどうかを考察する。
最先端のVLMは57.74%しか達成していないのに対し、オープンソースモデルは7つの学術領域で平均精度27.70%を達成している。
- 参考スコア(独自算出の注目度): 1.5790747258969664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) demonstrate remarkable capabilities on English multimodal tasks, but their performance on low-resource languages with genuinely multimodal educational content remains largely unexplored. In this work, we test how VLMs perform on Vietnamese educational assessments, investigating whether VLMs trained predominantly on English data can handle real-world cross-lingual multimodal reasoning. Our work presents the first comprehensive evaluation of VLM capabilities on multimodal Vietnamese exams through proposing ViExam, a benchmark containing 2,548 multimodal questions. We find that state-of-the-art VLMs achieve only 57.74% while open-source models achieve 27.70% mean accuracy across 7 academic domains, including Mathematics, Physics, Chemistry, Biology, Geography, Driving Test, and IQ Test. Most VLMs underperform average human test-takers (66.54%), with only the thinking VLM o3 (74.07%) exceeding human average performance, yet still falling substantially short of human best performance (99.60%). Cross-lingual prompting with English instructions while maintaining Vietnamese content fails to improve performance, decreasing accuracy by 1 percentage point for SOTA VLMs. Human-in-the-loop collaboration can partially improve VLM performance by 5 percentage points. Code and data are available at: https://vi-exam.github.io.
- Abstract(参考訳): 視覚言語モデル(VLM)は、英語のマルチモーダルなタスクにおいて顕著な能力を示すが、真のマルチモーダルな教育内容を持つ低リソース言語では、その性能はほとんど探索されていない。
本研究では,VLMがベトナムの教育評価においてどのように機能するかを検証し,VLMが実世界の言語間マルチモーダル推論を扱えるかを検討する。
本研究は,2,548のマルチモーダル質問を含むベンチマークであるViExamを提案し,ベトナムのマルチモーダル試験におけるVLM能力の総合評価を行った。
現状のVLMは57.74%に過ぎず、オープンソースモデルは数学、物理学、化学、生物学、地理学、運転テスト、IQテストを含む7つの学術領域で27.70%の平均精度を達成している。
ほとんどのVLMは平均的な人間のテストテイク(66.54%)を下回っており、VLM o3(74.07%)だけが人間の平均的なパフォーマンスを上回っているが、それでも人間の最高のパフォーマンス(99.60%)には及ばない。
ベトナム語の内容を維持しながら英語の指示を言語横断的に促すと、性能は向上せず、SOTA VLMの精度は1パーセント低下する。
人間とループのコラボレーションは、VLMのパフォーマンスを部分的に5ポイント向上させることができる。
コードとデータは、https://vi-exam.github.io.comで入手できる。
関連論文リスト
- Evaluating Vision-Language and Large Language Models for Automated Student Assessment in Indonesian Classrooms [5.076445852481039]
本研究は,インドネシアの6校の4年生を対象に,646人の受験者を対象に,最先端のVLMと複数のLDMの性能評価を行った。
以上の結果から,VLMは学生の筆跡の正確な認識に苦慮し,下流のLSMグレーディングにおける誤りの伝播につながることが示唆された。
論文 参考訳(メタデータ) (2025-06-05T09:41:09Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - EVJVQA Challenge: Multilingual Visual Question Answering [1.4641199499831683]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)の課題である。
EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答のためのベンチマークデータセットとして使用される。
本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。
論文 参考訳(メタデータ) (2023-02-23T02:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。