論文の概要: Essential-Web v1.0: 24T tokens of organized web data
- arxiv url: http://arxiv.org/abs/2506.14111v2
- Date: Thu, 19 Jun 2025 19:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.509527
- Title: Essential-Web v1.0: 24T tokens of organized web data
- Title(参考訳): Essential-Web v1.0: 組織化されたWebデータの24Tトークン
- Authors: Essential AI, :, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani,
- Abstract要約: Essential-Web v1.0は24トリルのデータセットで、すべてのドキュメントにトピック、フォーマット、コンテントの複雑さ、品質をカバーした12カテゴリの分類をアノテートする。
競争力のあるWebキュレートデータセット(SOTAと比較して8.0%)、Webコード(+14.3%)、STEM(+24.5%)、医学的データを得る。
- 参考スコア(独自算出の注目度): 13.914926836677648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data plays the most prominent role in how language models acquire skills and knowledge. The lack of massive, well-organized pre-training datasets results in costly and inaccessible data pipelines. We present Essential-Web v1.0, a 24-trillion-token dataset in which every document is annotated with a twelve-category taxonomy covering topic, format, content complexity, and quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned 0.5b-parameter model that achieves an annotator agreement within 3% of Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain competitive web-curated datasets in math (-8.0% relative to SOTA), web code (+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
- Abstract(参考訳): 言語モデルがスキルと知識をいかに獲得するかにおいて、データは最も顕著な役割を担います。
大規模で組織化された事前トレーニングデータセットの欠如は、高価でアクセス不能なデータパイプラインをもたらす。
提案するEssential-Web v1.0は、24トリルのデータセットで、各文書にトピック、フォーマット、コンテンツ複雑さ、品質をカバーした12カテゴリの分類をアノテートする。
EAI-Distill-0.5bはQwen2.5-32B-インストラクトの3%以内でアノテータ合意に達する0.5bパラメータの微調整モデルである。
SQLスタイルのフィルタに限らず、計算において競合するウェブ計算データセット(SOTAと比較して8.0%)、Webコード(+14.3%)、STEM(+24.5%)、医療(+8.6%)を得る。
Essential-Web v1.0 は HuggingFace で利用可能である。
関連論文リスト
- Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - GneissWeb: Preparing High Quality Data for LLMs at Scale [15.596915267015797]
GneissWebは10兆トークンの巨大なデータセットです。
GneissWebはデータ品質と量の間の良好なトレードオフを達成する。
我々は、GneissWebデータセットを使用してトレーニングされたモデルが、FineWeb-V1.1.0でトレーニングされたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-19T00:14:29Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling [27.975832264345772]
本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。
自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。
同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
論文 参考訳(メタデータ) (2024-01-29T18:19:08Z) - OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text [32.15651290548974]
OpenWebMathは、Common Crawlの14.7Bトークンを含む作品にインスパイアされたオープンデータセットである。
OpenWebMath上で1.4Bのパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-10T16:57:28Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。