Fugu-MT 論文翻訳(概要): Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

論文の概要: Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2406.17294v3
Date: Tue, 08 Oct 2024 06:58:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 07:47:35.696923
Title: Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
Title（参考訳）: Math-LLaVA:マルチモーダル大言語モデルのためのブートストラップ数学的推論
Authors: Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee,
Abstract要約: 我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。 Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
参考スコア（独自算出の注目度）: 62.815222721144636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive reasoning capabilities, particularly in textual mathematical problem-solving. However, existing open-source image instruction fine-tuning datasets, containing limited question-answer pairs per image, do not fully exploit visual information to enhance the multimodal mathematical reasoning capabilities of Multimodal LLMs (MLLMs). To bridge this gap, we address the lack of high-quality, diverse multimodal mathematical datasets by collecting 40K high-quality images with question-answer pairs from 24 existing datasets and synthesizing 320K new pairs, creating the MathV360K dataset, which enhances both the breadth and depth of multimodal mathematical questions. We introduce Math-LLaVA, a LLaVA-1.5-based model fine-tuned with MathV360K. This novel approach significantly improves the multimodal mathematical reasoning capabilities of LLaVA-1.5, achieving a 19-point increase and comparable performance to GPT-4V on MathVista's minitest split, and yielding leading performance on Math-V and MathVerse. Furthermore, Math-LLaVA demonstrates enhanced generalizability, showing substantial improvements on the MMMU benchmark. Our research highlights the importance of dataset diversity and synthesis in advancing MLLMs' mathematical reasoning abilities. The code and data are available at: \url{https://github.com/HZQ950419/Math-LLaVA}.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特にテキスト数学的問題解決において顕著な推論能力を示している。しかし、既存のオープンソースイメージインストラクション微調整データセットは、画像毎の質問対を限定的に含むが、視覚情報をフル活用して、マルチモーダルLLM(MLLM)のマルチモーダル数学的推論能力を高めることはできない。このギャップを埋めるために、24の既存データセットから40Kの高品質な画像を集め、320Kの新しいペアを合成し、マルチモーダルな数学的疑問の幅と深さを高めるMathV360Kデータセットを作成することで、高品質で多様なマルチモーダルな数学的データセットの欠如に対処する。我々は、LLaVA-1.5ベースモデルであるMath-LLaVAを紹介し、MathV360Kで微調整する。この手法は、LLaVA-1.5のマルチモーダルな数学的推論能力を大幅に改善し、MathVistaのミニテストスプリットにおけるGPT-4Vに匹敵する19ポイント向上とGPT-4Vの性能を達成し、Math-VとMathVerseで先行する性能を得る。さらに、Math-LLaVAは一般化性の向上を示し、MMMUベンチマークを大幅に改善した。本研究は,MLLMの数学的推論能力向上におけるデータセットの多様性と合成の重要性を強調した。コードとデータは以下の通りである。 \url{https://github.com/HZQ950419/Math-LLaVA}。

関連論文リスト

MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning [58.776297011268845]
本稿では,数学の本質的なVCoT機能を備えた大規模マルチモーダルモデルを実現するための包括的フレームワークを提案する。我々のモデルであるBAGEL-canvasは、強力なLMMベースラインよりも86%の相対的な改善を実現しています。我々の研究は、LMMにおける複雑なヒューマンライクな視覚支援推論をアンロックするためのツールキット・フレームワーク、データセット、ベンチマークを完全提供する。
論文参考訳（メタデータ） (2025-10-16T17:58:58Z)
CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文参考訳（メタデータ） (2025-10-13T17:59:55Z)
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning [36.55610944179401]
コードには、対応する図を生成するために必要なすべての情報を本質的にエンコードするので、クロスモーダルアライメントの監督としてコードを活用することを提案する。具体的には、イメージ・トゥ・コード・モデルとデータセットをモデル・イン・ザ・ループ・アプローチで共同開発する。我々は、ImgCode-8.6MでトレーニングしたMathCoder-VLを提案し、その後、マルチモーダル数学問題の解法としてMM-Math Instruct-3Mを微調整した。
論文参考訳（メタデータ） (2025-05-15T17:59:21Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model [37.26146689342965]
大規模言語モデル(LLM)は、数学的推論において重要な能力を示している。 MLLMは幾何学的な問題を解くことに集中する傾向があるが、数学の他の領域で利用可能な視覚情報の多様性を無視する傾向がある。本研究の目的は,MathGLM-Vision と呼ばれる特殊な数学的MLLMのシリーズを開発することである。
論文参考訳（メタデータ） (2024-09-10T01:20:22Z)
CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。 CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文参考訳（メタデータ） (2024-09-04T16:00:21Z)
MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models [14.274813480249161]
数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。 textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
論文参考訳（メタデータ） (2024-08-30T07:37:38Z)
Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning [5.9767694994869425]
MLLM(Multimodal Large Language Models)は、テキストベースの数学的問題の解法として優れている。彼らは、主に自然の風景画像で訓練されているため、数学的図形に苦しむ。本研究では,プログレッシブ・アップワード・マルチモーダルアライメントに着目したMath-PUMAを提案する。
論文参考訳（メタデータ） (2024-08-16T10:11:05Z)
MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文参考訳（メタデータ） (2024-07-11T17:59:47Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文参考訳（メタデータ） (2024-03-21T17:59:50Z)
Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-02-22T18:56:38Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。