論文の概要: Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale
Pretraining Corpus for Math
- arxiv url: http://arxiv.org/abs/2312.17120v1
- Date: Thu, 28 Dec 2023 16:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:37:46.091312
- Title: Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale
Pretraining Corpus for Math
- Title(参考訳): 数学のための生成AI: Part I -- MathPile: 数学のための数十億ドル規模の事前学習コーパス
- Authors: Zengzhi Wang, Rui Xia, Pengfei Liu
- Abstract要約: 約950億のトークンからなる多様で高品質な数学中心コーパスであるtextscMathPileを紹介します。
精巧なデータ収集と処理には、複雑な事前処理が含まれていました。
われわれのtextscMathPileは、言語モデルの数学的推論能力を高めるのに役立つことを願っている。
- 参考スコア(独自算出の注目度): 52.66190891388847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality, large-scale corpora are the cornerstone of building foundation
models. In this work, we introduce \textsc{MathPile}, a diverse and
high-quality math-centric corpus comprising about 9.5 billion tokens.
Throughout its creation, we adhered to the principle of ``\emph{less is
more}'', firmly believing in the supremacy of data quality over quantity, even
in the pre-training phase. Our meticulous data collection and processing
efforts included a complex suite of preprocessing, prefiltering, language
identification, cleaning, filtering, and deduplication, ensuring the high
quality of our corpus. Furthermore, we performed data contamination detection
on downstream benchmark test sets to eliminate duplicates. We hope our
\textsc{MathPile} can help to enhance the mathematical reasoning abilities of
language models. We plan to open-source different versions of \mathpile with
the scripts used for processing, to facilitate future developments in this
field.
- Abstract(参考訳): 高品質で大規模なコーパスが基礎モデルの基盤となっている。
本稿では,約9.5億トークンからなる多様で高品質な算数中心コーパスである \textsc{mathpile} を紹介する。
その作成を通じて、我々は ``\emph{less is more}'' という原則に固執し、事前訓練段階であっても量よりもデータ品質の優位をしっかりと信じていた。
私たちの精巧なデータ収集と処理には、事前処理、事前フィルタリング、言語識別、クリーニング、フィルタリング、重複処理といった複雑なスイートが含まれていました。
さらに,ダウンストリームベンチマークテストセット上でデータ汚染検出を行い,重複を除去した。
私たちの \textsc{MathPile} が言語モデルの数学的推論能力を高めるのに役立つことを願っています。
私たちは、この分野の将来の発展を促進するために、処理に使用されるスクリプトを使って、さまざまなバージョンの \mathpileをオープンソース化する予定です。
関連論文リスト
- AutoMathText: Autonomous Data Selection with Language Models for
Mathematical Texts [15.064299545072869]
自律的なデータ選択に基礎言語モデルを活用する新しい戦略を導入する。
200GB以上のデータを含むオープンソースのAutoMathTextデータセットをリリースする。
本手法は, ベースラインに比べて2倍の事前学習トークン効率を示す。
論文 参考訳(メタデータ) (2024-02-12T13:09:21Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text [32.15651290548974]
OpenWebMathは、Common Crawlの14.7Bトークンを含む作品にインスパイアされたオープンデータセットである。
OpenWebMath上で1.4Bのパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-10T16:57:28Z) - Neural Machine Translation for Mathematical Formulae [8.608288231153304]
我々は、あいまいな表現言語とあいまいなコンテンツ言語の間の数学的公式のニューラルネットワーク翻訳の問題に取り組む。
畳み込みシーケンス・ツー・シーケンス・ネットワークはそれぞれ95.1%と90.7%の正確な一致を達成した。
論文 参考訳(メタデータ) (2023-05-25T19:15:06Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Learning to Match Mathematical Statements with Proofs [37.38969121408295]
このタスクは、研究レベルの数学的テキストの処理を改善するために設計されている。
我々は180k以上の文対からなるタスク用のデータセットをリリースする。
課題をグローバルに検討し,重み付き二部マッチングアルゴリズムを用いることで,課題に対処できることが示唆された。
論文 参考訳(メタデータ) (2021-02-03T15:38:54Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。