論文の概要: GanitBench: A bi-lingual benchmark for evaluating mathematical reasoning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2508.03737v1
- Date: Thu, 31 Jul 2025 18:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.34952
- Title: GanitBench: A bi-lingual benchmark for evaluating mathematical reasoning in Vision Language Models
- Title(参考訳): GanitBench:視覚言語モデルにおける数学的推論を評価するためのバイリンガルベンチマーク
- Authors: Ashutosh Bandooni, Brindha Subburaj,
- Abstract要約: GanitBenchは1527の視覚のみの質問からなるベンチマークである。
ゼロショットチェイン・オブ・ソート(CoT)と2ショットCoT設定の2つのクローズドソースモデルの評価を行った。
GPT-4o miniはベンチマークでより支配的なモデルであり、平均精度は38.15%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks for evaluating reasoning among Vision Language Models (VLMs) on several fields and domains are being curated more frequently over the last few years. However these are often monolingual, mostly available in English. Additionally there also is a lack of datasets available in Hindi on tasks apart from comprehension and translation. We introduce GanitBench, a tough benchmark consisting of 1527 vision-only questions covering several topics in Mathematics - available in languages English and Hindi. Collected from two major examinations from India, the JEE Advanced and the CBSE Boards examinations, this benchmark includes questions in the form of images comprising of figures essential to a question as well as text. We evaluate two closed source models for the same, in zero-shot Chain-of-Thought (CoT) and two-shot CoT settings. GPT-4o mini is found to be the more dominant model on the benchmark, with it's highest average accuracy being 38.15%. We also evaluate models through a "Double Lock" constraint, which brings down the performance of the models by considerable margins. We observe that two-shot CoT appears to be a more effective setting under this environment. Performance of the two VLMs also decreases when answering the same questions in the Hindi language. We hope to facilitate the inclusion of languages like Hindi in research through our work.
- Abstract(参考訳): いくつかの分野や領域における視覚言語モデル(VLM)の推論を評価するベンチマークは、ここ数年でより頻繁に行われています。
しかし、これらはしばしば単言語であり、主に英語で利用可能である。
さらに、理解や翻訳以外のタスクでも、Hindiで利用可能なデータセットが不足している。
GanitBenchを紹介します。これは1527の視覚のみの質問で、数学のいくつかのトピックをカバーしています。
このベンチマークは、JEE AdvancedとCBSE Boardsの2つの主要な試験から収集され、質問に不可欠な人物の像とテキストの形での質問を含む。
ゼロショットチェイン・オブ・ソート(CoT)と2ショットCoT設定の2つのクローズドソースモデルの評価を行った。
GPT-4o miniはベンチマークでより支配的なモデルであり、平均精度は38.15%である。
また、「二重ロック」制約によりモデルの評価を行い、モデルの性能をかなりの差で低下させる。
この環境下では、2ショットのCoTの方がより効果的であるように見える。
2つのVLMの性能はヒンディー語で同じ質問に答えるときにも低下する。
私たちの研究を通じて、ヒンディー語のような言語を研究に取り入れることを容易にしたいと考えています。
関連論文リスト
- All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [74.4821011648997]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のためのベンチマークである。
視覚入力の役割を強調することにより、言語と視覚関係を混乱させようとする12のカテゴリを考察する。
MAIAは、そのデザイン、推論カテゴリ、使用するメトリクス、およびビデオの言語と文化に関して、他の利用可能なビデオベンチマークとは異なる。
論文 参考訳(メタデータ) (2025-02-24T09:25:51Z) - HindiLLM: Large Language Model for Hindi [0.09363323206192666]
我々はヒンディー語のための2つの自己回帰型大規模言語モデル(LLM)を事前訓練した。
教師なし事前学習と教師付き微調整を含む2段階のプロセスを用いる。
評価の結果,HindiLLMをベースとした微調整モデルでは,言語関連タスクの大部分において,いくつかのモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-12-29T05:28:15Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - cViL: Cross-Lingual Training of Vision-Language Models using Knowledge
Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。
日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。
我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-06-07T14:46:30Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。