論文の概要: Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs
- arxiv url: http://arxiv.org/abs/2508.17334v2
- Date: Tue, 26 Aug 2025 12:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.062782
- Title: Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs
- Title(参考訳): 言語ギャップを意識する:LVLMの数値的・言語的限界を探る
- Authors: Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit,
- Abstract要約: MMCRICBENCH-3Kは、ODI、T20、テストフォーマットから合成された1,463枚のスコアカード画像からなる。
MMCRICBENCH-E-1.5KとMMCRICBENCH-H-1.5Kの2つのサブセットがあり、視覚的に類似したヒンディー語のスコアカードを含んでいる。
- 参考スコア(独自算出の注目度): 4.605181529681806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA) on cricket scorecards, designed to evaluate large vision-language models (LVLMs) on complex numerical and cross-lingual reasoning over semi-structured tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English scorecards, and MMCRICBENCH-H-1.5K, containing visually similar Hindi scorecards, with all questions and answers kept in English to enable controlled cross-script evaluation. The task demands reasoning over structured numerical data, multi-image context, and implicit domain knowledge. Empirical results show that even state-of-the-art LVLMs, such as GPT-4o and Qwen2.5VL, struggle on the English subset despite it being their primary training language and exhibit a further drop in performance on the Hindi subset. This reveals key limitations in structure-aware visual text understanding, numerical reasoning, and cross-lingual generalization. The dataset is publicly available via Hugging Face at https://huggingface.co/datasets/DIALab/MMCricBench, to promote LVLM research in this direction.
- Abstract(参考訳): 本稿では,クリケットスコアカード上での視覚質問応答 (VQA) のベンチマークであるMCCRICBENCH-3Kを紹介する。
MMCRICBENCH-3Kは、ODI、T20、Testフォーマットから合成された1,463枚のスコアカード画像と、1500の英語QAペアからなる。
英語のスコアカードを特徴とするMCCRICBENCH-E-1.5Kと、視覚的に類似したヒンディー語のスコアカードを含むMCCRICBENCH-H-1.5Kである。
このタスクは、構造化された数値データ、マルチイメージコンテキスト、暗黙的なドメイン知識に対する推論を要求する。
GPT-4oやQwen2.5VLのような最先端のLVLMでさえ、初等訓練言語であるにもかかわらず英語のサブセットに苦戦し、ヒンディー語サブセットのさらなる性能低下を示す。
これは、構造を意識した視覚的テキスト理解、数値推論、言語間一般化における重要な制限を明らかにする。
データセットはHugging Face at https://huggingface.co/datasets/DIALab/MMCricBenchから公開されている。
関連論文リスト
- HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples [3.3715057550177145]
インド語の視覚言語モデル(VLM)を評価し,それを英語のパフォーマンスと比較するためのスケーラブルなフレームワークを提案する。
このフレームワークを使ってHinTel-AlignBenchを生成する。HindiとTeluguのさまざまなソースから英語対応のサンプルを描画するベンチマークだ。
ヒンディー語では平均8.3ポイント、テルグ語では5.5ポイントである。
論文 参考訳(メタデータ) (2025-11-19T07:11:00Z) - GanitBench: A bi-lingual benchmark for evaluating mathematical reasoning in Vision Language Models [0.0]
GanitBenchは1527の視覚のみの質問からなるベンチマークである。
ゼロショットチェイン・オブ・ソート(CoT)と2ショットCoT設定の2つのクローズドソースモデルの評価を行った。
GPT-4o miniはベンチマークでより支配的なモデルであり、平均精度は38.15%である。
論文 参考訳(メタデータ) (2025-07-31T18:24:05Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.2242530642524063]
COMI-lingUAは、ヒンディー語と英語のコード混成データセットとしては最大である。
5つのコアNLPタスクにわたる125K以上の高品質なインスタンスで構成されている。
各インスタンスには3つのバイリンガルアノテーションがアノテートされ、376K以上の専門家アノテーションが生成される。
論文 参考訳(メタデータ) (2025-03-27T16:36:39Z) - Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。
これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。
XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-12-23T18:48:04Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [57.30218240464696]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.2529442734851663]
VQA(Visual Question Answerinng)は、自然言語と画像を同時に処理する能力を必要とする複雑なタスクである。
本稿では,シーンテキストの理解を専門とするベトナム初の大規模データセットについて紹介する。
論文 参考訳(メタデータ) (2024-04-16T15:28:30Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。