論文の概要: Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs
- arxiv url: http://arxiv.org/abs/2508.17334v1
- Date: Sun, 24 Aug 2025 12:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.471909
- Title: Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs
- Title(参考訳): 言語ギャップを意識する:LVLMの数値的・言語的限界を探る
- Authors: Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit,
- Abstract要約: MMCRICBENCH-3Kは、ODI、T20、テストフォーマットから合成された1,463枚のスコアカード画像からなる。
MMCRICBENCH-E-1.5KとMMCRICBENCH-H-1.5Kの2つのサブセットがあり、視覚的に類似したヒンディー語のスコアカードを含んでいる。
- 参考スコア(独自算出の注目度): 4.605181529681806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA) on cricket scorecards, designed to evaluate large vision-language models (LVLMs) on complex numerical and cross-lingual reasoning over semi-structured tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English scorecards, and MMCRICBENCH-H-1.5K, containing visually similar Hindi scorecards, with all questions and answers kept in English to enable controlled cross-script evaluation. The task demands reasoning over structured numerical data, multi-image context, and implicit domain knowledge. Empirical results show that even state-of-the-art LVLMs, such as GPT-4o and Qwen2.5VL, struggle on the English subset despite it being their primary training language and exhibit a further drop in performance on the Hindi subset. This reveals key limitations in structure-aware visual text understanding, numerical reasoning, and cross-lingual generalization. The dataset is publicly available via Hugging Face at https://huggingface.co/datasets/DIALab/MMCricBench, to promote LVLM research in this direction.
- Abstract(参考訳): 本稿では,クリケットスコアカード上での視覚質問応答 (VQA) のベンチマークであるMCCRICBENCH-3Kを紹介する。
MMCRICBENCH-3Kは、ODI、T20、Testフォーマットから合成された1,463枚のスコアカード画像と、1500の英語QAペアからなる。
英語のスコアカードを特徴とするMCCRICBENCH-E-1.5Kと、視覚的に類似したヒンディー語のスコアカードを含むMCCRICBENCH-H-1.5Kである。
このタスクは、構造化された数値データ、マルチイメージコンテキスト、暗黙的なドメイン知識に対する推論を要求する。
GPT-4oやQwen2.5VLのような最先端のLVLMでさえ、初等訓練言語であるにもかかわらず英語のサブセットに苦戦し、ヒンディー語サブセットのさらなる性能低下を示す。
これは、構造を意識した視覚的テキスト理解、数値推論、言語間一般化における重要な制限を明らかにする。
データセットはHugging Face at https://huggingface.co/datasets/DIALab/MMCricBenchから公開されている。
関連論文リスト
- GanitBench: A bi-lingual benchmark for evaluating mathematical reasoning in Vision Language Models [0.0]
GanitBenchは1527の視覚のみの質問からなるベンチマークである。
ゼロショットチェイン・オブ・ソート(CoT)と2ショットCoT設定の2つのクローズドソースモデルの評価を行った。
GPT-4o miniはベンチマークでより支配的なモデルであり、平均精度は38.15%である。
論文 参考訳(メタデータ) (2025-07-31T18:24:05Z) - Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。
これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。
XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-12-23T18:48:04Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [57.30218240464696]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。