Fugu-MT 論文翻訳(概要): MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

論文の概要: MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2505.10557v1
Date: Thu, 15 May 2025 17:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.459029
Title: MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
Title（参考訳）: MathCoder-VL:マルチモーダルな数学的推論のためのブリッジングビジョンとコード
Authors: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li,
Abstract要約: コードには、対応する図を生成するために必要なすべての情報を本質的にエンコードするので、クロスモーダルアライメントの監督としてコードを活用することを提案する。具体的には、イメージ・トゥ・コード・モデルとデータセットをモデル・イン・ザ・ループ・アプローチで共同開発する。我々は、ImgCode-8.6MでトレーニングしたMathCoder-VLを提案し、その後、マルチモーダル数学問題の解法としてMM-Math Instruct-3Mを微調整した。
参考スコア（独自算出の注目度）: 36.55610944179401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly focus on natural scenarios and overlook the intricate details of mathematical figures that are critical for problem-solving, hindering the advancement of current LMMs in multimodal mathematical reasoning. To this end, we propose leveraging code as supervision for cross-modal alignment, since code inherently encodes all information needed to generate corresponding figures, establishing a precise connection between the two modalities. Specifically, we co-develop our image-to-code model and dataset with model-in-the-loop approach, resulting in an image-to-code model, FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date. Furthermore, we utilize FigCodifier to synthesize novel mathematical figures and then construct MM-MathInstruct-3M, a high-quality multimodal math instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista, achieving improvements of 8.9% and 9.2%. The dataset and models will be released at https://github.com/mathllm/MathCoder.
Abstract（参考訳）: 大規模マルチモーダルモデル(Large Multimodal Models)の訓練に広く用いられている自然言語画像キャプチャデータセットは、主に自然シナリオに焦点を当て、問題解決に不可欠な数学的数字の複雑な詳細を見落とし、マルチモーダルな数学的推論における現在のLMMの進歩を妨げる。この目的のために、コードには、対応する図形を生成するために必要な全ての情報を本質的にエンコードし、2つのモダリティ間の正確な接続を確立するため、クロスモーダルアライメントの監督としてコードを活用することを提案する。具体的には、イメージ・トゥ・コード・モデルとデータセットをループ・イン・ザ・ループ・アプローチで共同開発し、これまでで最大の画像・コード・データセットであるFigCodifierとImgCode-8.6Mデータセットが得られた。さらに、FigCodifierを用いて新しい数学図形を合成し、高品質なマルチモーダル数学の微調整データセットであるMM-Math Instruct-3Mを構築する。最後に,ImgCode-8.6MでトレーニングしたMathCoder-VLについて述べる。我々のモデルは、6つのメトリクスすべてにまたがる新たなオープンソースSOTAを実現する。特に、MathVistaの幾何学的問題解決サブセットにおいて、GPT-4oとClaude 3.5 Sonnetを抜いて8.9%と9.2%の改善を実現している。データセットとモデルはhttps://github.com/mathllm/MathCoder.comでリリースされる。

関連論文リスト

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models [14.274813480249161]
数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。 textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
論文参考訳（メタデータ） (2024-08-30T07:37:38Z)
MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文参考訳（メタデータ） (2024-07-11T17:59:47Z)
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。 Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文参考訳（メタデータ） (2024-06-25T05:43:21Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。 MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文参考訳（メタデータ） (2023-09-11T17:47:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。