論文の概要: CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
- arxiv url: http://arxiv.org/abs/2510.11718v1
- Date: Mon, 13 Oct 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.508506
- Title: CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
- Title(参考訳): CodePlot-CoT: コード駆動イメージによる数学的視覚推論
- Authors: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu,
- Abstract要約: 本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。
我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
- 参考スコア(独自算出の注目度): 69.93976232543066
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) and Vision Language Models (VLMs) have shown significant progress in mathematical reasoning, yet they still face a critical bottleneck with problems requiring visual assistance, such as drawing auxiliary lines or plotting functions to solve the problems. Most LLMs and VLMs are constrained to text-only reasoning chains, while multimodal unified models that can generate interleaved text and images lack the necessary precision and controllability for such tasks. To address this, we propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking with images" in mathematics. Our approach leverages the VLM to generate text reasoning as well as executable plotting code, which is then rendered into images as "visual thought", to solve mathematical problems. To achieve this, we first construct Math-VR, the first large-scale, bilingual dataset and benchmark for Mathematics problems with Visual Reasoning, comprising 178K samples. Second, to create high-quality training data, we develop a state-of-the-art image-to-code converter specialized for parsing complex mathematical figures into codes. Finally, using these training data, we train the CodePlot-CoT model for solving mathematical problems. Experimental results show that our model achieves up to 21% increase over base model on our new benchmark, fully validating the efficacy of our proposed code-driven reasoning paradigm. Our work opens a new direction for multimodal mathematical reasoning and provides the community with the first large-scale dataset, comprehensive benchmark, and strong approach for such problems. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
- Abstract(参考訳): 近年のLLM(Large Language Models)とVLM(Vision Language Models)の進歩は、数学的推論において大きな進歩を見せている。
ほとんどのLLMとVLMはテキストのみの推論チェーンに制約されるが、インターリーブされたテキストや画像を生成するマルチモーダル統一モデルはそのようなタスクに必要な精度と制御性に欠ける。
そこで本研究では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
我々のアプローチでは、VLMを利用してテキスト推論と実行可能なプロットコードを生成し、それを「視覚的思考」として画像に描画することで数学的問題を解決する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを178Kサンプルで構築した。
第2に,複雑な数式をコードに解析するための最先端のイメージ・トゥ・コード変換器を開発する。
最後に、これらのトレーニングデータを用いて、数学的問題を解決するためにCodePlot-CoTモデルを訓練する。
実験結果から,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上することが示された。
我々の研究は、マルチモーダルな数学的推論のための新しい方向性を開き、コミュニティに最初の大規模データセット、包括的なベンチマーク、そしてそのような問題に対する強力なアプローチを提供する。
将来の研究を促進するため、データセット、コード、事前トレーニングされたモデルをhttps://github.com/HKU-MMLab/Math-VR-CodePlot-CoTで公開しています。
関連論文リスト
- MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning [36.55610944179401]
コードには、対応する図を生成するために必要なすべての情報を本質的にエンコードするので、クロスモーダルアライメントの監督としてコードを活用することを提案する。
具体的には、イメージ・トゥ・コード・モデルとデータセットをモデル・イン・ザ・ループ・アプローチで共同開発する。
我々は、ImgCode-8.6MでトレーニングしたMathCoder-VLを提案し、その後、マルチモーダル数学問題の解法としてMM-Math Instruct-3Mを微調整した。
論文 参考訳(メタデータ) (2025-05-15T17:59:21Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。