論文の概要: OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text
- arxiv url: http://arxiv.org/abs/2310.06786v1
- Date: Tue, 10 Oct 2023 16:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:24:39.674856
- Title: OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text
- Title(参考訳): OpenWebMath: 高品質な数学的Webテキストのオープンデータセット
- Authors: Keiran Paster and Marco Dos Santos and Zhangir Azerbayev and Jimmy Ba
- Abstract要約: OpenWebMathは、Common Crawlの14.7Bトークンを含む作品にインスパイアされたオープンデータセットである。
OpenWebMath上で1.4Bのパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
- 参考スコア(独自算出の注目度): 32.15651290548974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is growing evidence that pretraining on high quality, carefully
thought-out tokens such as code or mathematics plays an important role in
improving the reasoning abilities of large language models. For example,
Minerva, a PaLM model finetuned on billions of tokens of mathematical documents
from arXiv and the web, reported dramatically improved performance on problems
that require quantitative reasoning. However, because all known open source web
datasets employ preprocessing that does not faithfully preserve mathematical
notation, the benefits of large scale training on quantitive web documents are
unavailable to the research community. We introduce OpenWebMath, an open
dataset inspired by these works containing 14.7B tokens of mathematical
webpages from Common Crawl. We describe in detail our method for extracting
text and LaTeX content and removing boilerplate from HTML documents, as well as
our methods for quality filtering and deduplication. Additionally, we run
small-scale experiments by training 1.4B parameter language models on
OpenWebMath, showing that models trained on 14.7B tokens of our dataset surpass
the performance of models trained on over 20x the amount of general language
data. We hope that our dataset, openly released on the Hugging Face Hub, will
help spur advances in the reasoning abilities of large language models.
- Abstract(参考訳): コードや数学のような、高品質で慎重に考察されたトークンを事前訓練することが、大きな言語モデルの推論能力を改善する上で重要な役割を果たす証拠が増えている。
例えば、arXivやWebから数十億の数学的文書のトークンを微調整したPaLMモデルであるMinervaは、定量的推論を必要とする問題のパフォーマンスを劇的に改善したと報告している。
しかし、すべての既知のオープンソースWebデータセットは、数学的表記を忠実に保存しない事前処理を採用しているため、定量Webドキュメントに対する大規模なトレーニングの利点は研究コミュニティでは利用できない。
OpenWebMathは、Common Crawlの数学的Webページの14.7Bトークンを含む、これらの作品にインスパイアされたオープンデータセットである。
本稿では,HTML文書からテキストとLaTeXコンテンツを抽出し,ボイラプレートを除去する手法と,高品質なフィルタリングと復号化手法について詳述する。
さらに、OpenWebMath上で1.4Bパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
当社のデータセットがHugging Face Hubで公開され、大規模言語モデルの推論能力の進歩を加速することを期待しています。
関連論文リスト
- InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Textbooks Are All You Need II: phi-1.5 technical report [55.6940110946465]
我々は、新しい13億のパラメータモデル textbfphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。
textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。
我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
論文 参考訳(メタデータ) (2023-09-11T14:01:45Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles [8.942112181408156]
本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
論文 参考訳(メタデータ) (2022-08-22T12:11:30Z) - Lessons from Deep Learning applied to Scholarly Information Extraction:
What Works, What Doesn't, and Future Directions [12.62863659147376]
EneRexは、コンピュータ科学の分野における大規模なデータセットから、どのようにして重要な洞察を抽出できるかを示す。
既存のデータセットがキャパシティに制限されていること、EneRexが既存のナレッジグラフにどのように適合するかを強調します。
論文 参考訳(メタデータ) (2022-07-08T17:37:56Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。