論文の概要: MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.10557v1
- Date: Thu, 15 May 2025 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.459029
- Title: MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
- Title(参考訳): MathCoder-VL:マルチモーダルな数学的推論のためのブリッジングビジョンとコード
- Authors: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li,
- Abstract要約: コードには、対応する図を生成するために必要なすべての情報を本質的にエンコードするので、クロスモーダルアライメントの監督としてコードを活用することを提案する。
具体的には、イメージ・トゥ・コード・モデルとデータセットをモデル・イン・ザ・ループ・アプローチで共同開発する。
我々は、ImgCode-8.6MでトレーニングしたMathCoder-VLを提案し、その後、マルチモーダル数学問題の解法としてMM-Math Instruct-3Mを微調整した。
- 参考スコア(独自算出の注目度): 36.55610944179401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly focus on natural scenarios and overlook the intricate details of mathematical figures that are critical for problem-solving, hindering the advancement of current LMMs in multimodal mathematical reasoning. To this end, we propose leveraging code as supervision for cross-modal alignment, since code inherently encodes all information needed to generate corresponding figures, establishing a precise connection between the two modalities. Specifically, we co-develop our image-to-code model and dataset with model-in-the-loop approach, resulting in an image-to-code model, FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date. Furthermore, we utilize FigCodifier to synthesize novel mathematical figures and then construct MM-MathInstruct-3M, a high-quality multimodal math instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista, achieving improvements of 8.9% and 9.2%. The dataset and models will be released at https://github.com/mathllm/MathCoder.
- Abstract(参考訳): 大規模マルチモーダルモデル(Large Multimodal Models)の訓練に広く用いられている自然言語画像キャプチャデータセットは、主に自然シナリオに焦点を当て、問題解決に不可欠な数学的数字の複雑な詳細を見落とし、マルチモーダルな数学的推論における現在のLMMの進歩を妨げる。
この目的のために、コードには、対応する図形を生成するために必要な全ての情報を本質的にエンコードし、2つのモダリティ間の正確な接続を確立するため、クロスモーダルアライメントの監督としてコードを活用することを提案する。
具体的には、イメージ・トゥ・コード・モデルとデータセットをループ・イン・ザ・ループ・アプローチで共同開発し、これまでで最大の画像・コード・データセットであるFigCodifierとImgCode-8.6Mデータセットが得られた。
さらに、FigCodifierを用いて新しい数学図形を合成し、高品質なマルチモーダル数学の微調整データセットであるMM-Math Instruct-3Mを構築する。
最後に,ImgCode-8.6MでトレーニングしたMathCoder-VLについて述べる。
我々のモデルは、6つのメトリクスすべてにまたがる新たなオープンソースSOTAを実現する。
特に、MathVistaの幾何学的問題解決サブセットにおいて、GPT-4oとClaude 3.5 Sonnetを抜いて8.9%と9.2%の改善を実現している。
データセットとモデルはhttps://github.com/mathllm/MathCoder.comでリリースされる。
関連論文リスト
- MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。