論文の概要: Craw4LLM: Efficient Web Crawling for LLM Pretraining
- arxiv url: http://arxiv.org/abs/2502.13347v1
- Date: Wed, 19 Feb 2025 00:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:25.432777
- Title: Craw4LLM: Efficient Web Crawling for LLM Pretraining
- Title(参考訳): Craw4LLM: LLM事前トレーニングのための効率的なWebクローリング
- Authors: Shi Yu, Zhiyuan Liu, Chenyan Xiong,
- Abstract要約: 本稿では,LLM事前学習の嗜好に基づいてWebグラフを探索するWebクローリング手法であるCrawl4LLMを提案する。
商用検索エンジンのインデックスから9億のWebページを含むWebグラフに関する実験は、高品質な事前学習データを得る上で、Crawl4LLMの有効性を実証している。
- 参考スコア(独自算出の注目度): 45.92222494772196
- License:
- Abstract: Web crawl is a main source of large language models' (LLMs) pretraining data, but the majority of crawled web pages are discarded in pretraining due to low data quality. This paper presents Crawl4LLM, an efficient web crawling method that explores the web graph based on the preference of LLM pretraining. Specifically, it leverages the influence of a webpage in LLM pretraining as the priority score of the web crawler's scheduler, replacing the standard graph connectivity based priority. Our experiments on a web graph containing 900 million webpages from a commercial search engine's index demonstrate the efficiency of Crawl4LLM in obtaining high-quality pretraining data. With just 21% URLs crawled, LLMs pretrained on Crawl4LLM data reach the same downstream performances of previous crawls, significantly reducing the crawling waste and alleviating the burdens on websites. Our code is publicly available at https://github.com/cxcscmu/Crawl4LLM.
- Abstract(参考訳): Web crawlは、大規模言語モデル(LLM)の事前トレーニングデータの主要なソースであるが、クローされたWebページの大部分は、データ品質の低い事前トレーニングで破棄される。
本稿では,LLM事前学習の嗜好に基づいてWebグラフを探索するWebクローリング手法であるCrawl4LLMを提案する。
具体的には、LLMプリトレーニングにおけるWebページの影響をWebクローラのスケジューラの優先度スコアとして活用し、標準的なグラフ接続性に基づく優先度を置き換える。
商用検索エンジンのインデックスから9億のWebページを含むWebグラフに関する実験は、高品質な事前学習データを得る上で、Crawl4LLMの有効性を実証している。
たった21%のURLがクロールされただけで、Crawl4LLMデータで事前訓練されたLLMは、以前のクロールと同じダウンストリームのパフォーマンスに達し、クロールのムダが大幅に削減され、ウェブサイトの負担が軽減された。
私たちのコードはhttps://github.com/cxcscmu/Crawl4LLM.comで公開されています。
関連論文リスト
- Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。
本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文 参考訳(メタデータ) (2024-09-25T03:39:14Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
8つのベンチマークで1億6000万のパラメータスケールで事前トレーニングを行う場合,提案手法は各ベンチマークにおいてDSIRよりも優れる。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale [30.955171096569618]
FineWebは96 Common Crawlスナップショットから派生した15トリリオンのトークンデータセットである。
FineWeb-Eduは、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションである。
論文 参考訳(メタデータ) (2024-06-25T13:50:56Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Cleaner Pretraining Corpus Curation with Neural Web Scraping [39.97459187762505]
本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。
実験結果から,NeuScraperは20%以上の改善を達成し,ベースラインスクラップラーを上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-22T16:04:03Z) - Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling [27.975832264345772]
本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。
自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。
同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
論文 参考訳(メタデータ) (2024-01-29T18:19:08Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。