論文の概要: InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2409.12568v1
- Date: Thu, 19 Sep 2024 08:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:19:13.611536
- Title: InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
- Title(参考訳): InfiMM-WebMath-40B: 拡張数学的推論のためのマルチモーダル事前学習の改善
- Authors: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You,
- Abstract要約: InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
- 参考スコア(独自算出の注目度): 58.7966588457529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
- Abstract(参考訳): 大規模で高品質なデータセットの事前トレーニングは、特に数学のような専門分野において、LLM(Large Language Models)の推論能力を高めるために不可欠である。
重要視されているにもかかわらず、Multimodal LLMs (MLLMs) フィールドは現在、数学的推論のために特別に設計された、包括的なオープンソース事前トレーニングデータセットを欠いている。
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
データ収集と処理パイプラインの詳細な概要を提供します。
InfiMM-WebMath-40Bのロバスト性を実証するため,テキストのみとマルチモーダルの両方で評価を行った。
テキストのみのベンチマークによる評価では、わずか400億のトークンを使用しても、データセットは1.3Bモデルの性能を大幅に向上させ、同じモデルサイズで1200億のトークンを使用するDeepSeekMath-1.3Bに匹敵する結果をもたらすことが示されている。
それにもかかわらず、我々のモデルはマルチモーダル数学事前学習データセットを導入し、MathVerseやWe-Mathといったマルチモーダル数学ベンチマーク上で、オープンソースのモデルの中で新しい最先端のモデルを構築しました。
データをhttps://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40Bでリリースします。
関連論文リスト
- MIND: Math Informed syNthetic Dialogues for Pretraining LLMs [34.498175178707065]
本稿では,新しい大規模かつ多様なMath Informed syNthetic Dialogue(MIND)生成法を提案する。
MIND は OpenWebMath (OWM) に基づいて合成会話を生成し,新しい数学コーパス MIND-OWM を生成する。
会話設定の異なる実験により,対話参加者間の知識ギャップを組み込むことが,高品質な数学データの生成に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-10-15T18:25:53Z) - CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。
CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。
複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:00:21Z) - MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models [14.274813480249161]
数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。
textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。
また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
論文 参考訳(メタデータ) (2024-08-30T07:37:38Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens [113.9621845919304]
MINT-1Tは最も広く多様なオープンソースMultimodal INTerleavedデータセットです。
MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。
実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-06-17T07:21:36Z) - OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text [32.15651290548974]
OpenWebMathは、Common Crawlの14.7Bトークンを含む作品にインスパイアされたオープンデータセットである。
OpenWebMath上で1.4Bのパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-10T16:57:28Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。