論文の概要: MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2409.00147v1
- Date: Fri, 30 Aug 2024 07:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:50:17.411732
- Title: MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models
- Title(参考訳): MultiMath: 大規模言語モデルのための視覚的および数学的推論
- Authors: Shuai Peng, Di Fu, Liangcai Gao, Xiuqin Zhong, Hongguang Fu, Zhi Tang,
- Abstract要約: 数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。
textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。
また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
- 参考スコア(独自算出の注目度): 14.274813480249161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large language models (LLMs) has spurred extensive research into their domain-specific capabilities, particularly mathematical reasoning. However, most open-source LLMs focus solely on mathematical reasoning, neglecting the integration with visual injection, despite the fact that many mathematical tasks rely on visual inputs such as geometric diagrams, charts, and function plots. To fill this gap, we introduce \textbf{MultiMath-7B}, a multimodal large language model that bridges the gap between math and vision. \textbf{MultiMath-7B} is trained through a four-stage process, focusing on vision-language alignment, visual and math instruction-tuning, and process-supervised reinforcement learning. We also construct a novel, diverse and comprehensive multimodal mathematical dataset, \textbf{MultiMath-300K}, which spans K-12 levels with image captions and step-wise solutions. MultiMath-7B achieves state-of-the-art (SOTA) performance among open-source models on existing multimodal mathematical benchmarks and also excels on text-only mathematical benchmarks. Our model and dataset are available at {\textcolor{blue}{\url{https://github.com/pengshuai-rin/MultiMath}}}.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展は、その領域固有の能力、特に数学的推論に関する広範な研究を刺激している。
しかし、ほとんどのオープンソースのLCMは、幾何学図、チャート、関数プロットのような視覚的な入力に依存しているにもかかわらず、視覚的インジェクションとの統合を無視し、数学的推論にのみ焦点を当てている。
このギャップを埋めるために,数学と視覚のギャップを埋めるマルチモーダルな大規模言語モデルである \textbf{MultiMath-7B} を導入する。
\textbf{MultiMath-7B} は、視覚言語アライメント、視覚および数学の授業チューニング、およびプロセス教師付き強化学習に焦点を当てた4段階のプロセスを通じて訓練される。
また,画像キャプションとステップワイズによるK-12レベルにまたがる,新しい多様かつ包括的マルチモーダルな数学的データセットである \textbf{MultiMath-300K} を構築した。
MultiMath-7Bは、既存のマルチモーダル数学ベンチマークのオープンソースモデル間での最先端(SOTA)性能を実現し、テキストのみの数学的ベンチマークでも優れている。
我々のモデルとデータセットは {\textcolor{blue}{\url{https://github.com/pengshuai-rin/MultiMath}}} で利用可能です。
関連論文リスト
- InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model [37.26146689342965]
大規模言語モデル(LLM)は、数学的推論において重要な能力を示している。
MLLMは幾何学的な問題を解くことに集中する傾向があるが、数学の他の領域で利用可能な視覚情報の多様性を無視する傾向がある。
本研究の目的は,MathGLM-Vision と呼ばれる特殊な数学的MLLMのシリーズを開発することである。
論文 参考訳(メタデータ) (2024-09-10T01:20:22Z) - Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning [5.9767694994869425]
MLLM(Multimodal Large Language Models)は、テキストベースの数学的問題の解法として優れている。
彼らは、主に自然の風景画像で訓練されているため、数学的図形に苦しむ。
本研究では,プログレッシブ・アップワード・マルチモーダルアライメントに着目したMath-PUMAを提案する。
論文 参考訳(メタデータ) (2024-08-16T10:11:05Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。