論文の概要: M3Kang: Evaluating Multilingual Multimodal Mathematical Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.16218v1
- Date: Sat, 03 Jan 2026 00:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.447561
- Title: M3Kang: Evaluating Multilingual Multimodal Mathematical Reasoning in Vision-Language Models
- Title(参考訳): M3Kang:視覚言語モデルにおける多言語マルチモーダル数学的推論の評価
- Authors: Aleix Torres-Camps, Nathaniel Mitrani Hadida, Víctor Conchello Vendrell, Àlex Batlle Casellas, Arnau Padrés Masdemont, Jordi Ros-Giralt,
- Abstract要約: M3Kangは視覚言語モデル(VLM)のための多言語・多モーダルな数学的推論データセットである
カンガルー数学コンクールは、90カ国以上で18歳未満の参加者が600万人を超える世界最大規模の数学コンクールである。
M3Kangには1,747の独特な多重選択問題があり、108の文化的多言語に翻訳されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite state-of-the-art vision-language models (VLMs) have demonstrated strong reasoning capabilities, their performance in multilingual mathematical reasoning remains underexplored, particularly when compared to human performance. To bridge this gap, we introduce M3Kang, the first massively multilingual, multimodal mathematical reasoning dataset for VLMs. It is derived from the Kangaroo Math Competition, the world's largest mathematics contest, which annually engages over six million participants under the age of 18 across more than 90 countries. M3Kang includes 1,747 unique multiple-choice problems organized by grade-level difficulty, with translations into 108 culturally diverse languages, some of them including diagrams essential for solving them. Using this dataset, we conduct extensive benchmarking on both closed- and open-source SOTA models. We observe that, despite recent advances, models still struggle with basic math and diagram-based reasoning, with performance scaling with language presence and model size, but not with grade level. We also find that multilingual techniques can be effectively extended to the multimodal setting, resulting in significant improvements over baseline approaches. Our analysis also incorporates performance data from over 68,000 students, enabling direct comparison with human performance. We are open-sourcing M3Kang, including the English-only subset M2Kang, along with the framework and codebase used to construct the dataset.
- Abstract(参考訳): 最先端の視覚言語モデル(VLM)は強力な推論能力を示してきたが、多言語数学的推論における性能は、特に人的性能と比較した場合、未解明のままである。
このギャップを埋めるために,VLMのための多言語・多モーダルな数学的推論データセットであるM3Kangを導入する。
カンガルー数学コンクールは世界最大規模の数学コンクールで、毎年90カ国以上で18歳未満の参加者が600万人以上参加している。
M3Kangには、グレードレベルの難易度によって構成された1,747の独特な多重選択問題があり、108の文化的に多様な言語に翻訳されている。
このデータセットを用いて、我々は、クローズドおよびオープンソースSOTAモデルの両方で広範なベンチマークを行う。
近年の進歩にもかかわらず、モデルが基礎数学や図に基づく推論に苦しむのは、言語の存在とモデルサイズによるパフォーマンスのスケーリングであり、グレードレベルではない、ということが観察されている。
また,多言語的手法をマルチモーダル設定に効果的に拡張することで,ベースラインアプローチよりも大幅に改善できることが判明した。
分析には68,000人以上の学生のパフォーマンスデータも組み込まれており、人間のパフォーマンスと直接比較することが可能である。
私たちはM3Kangをオープンソース化しています。これには英語のみのサブセットM2Kangと、データセットの構築に使用されるフレームワークとコードベースが含まれています。
関連論文リスト
- Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。