論文の概要: Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
- arxiv url: http://arxiv.org/abs/2602.19548v1
- Date: Mon, 23 Feb 2026 06:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.702319
- Title: Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
- Title(参考訳): 単一エクストラクタを超えて: LLM事前トレーニングのためのHTML-to-Text抽出の再考
- Authors: Jeffrey Li, Josh Gardner, Doug Kang, Fangping Shi, Karanjeet Singh, Chun-Liang Li, Herumb Shandilya, David Hall, Oncel Tuzel, Percy Liang, Ludwig Schmidt, Hadi Pour Ansari, Fartash Faghri,
- Abstract要約: 表やコードブロックなどの構造化コンテンツの場合、抽出器の選択は下流のタスク性能に大きな影響を及ぼすことを示す。
これは単純な介入を示唆している: 異なる抽出器をユニオンに取り込むことで、DCLM-Baselineのトークン収率を最大71%向上させることができる。
- 参考スコア(独自算出の注目度): 78.36592534300839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the first pre-processing steps for constructing web-scale LLM pretraining datasets involves extracting text from HTML. Despite the immense diversity of web content, existing open-source datasets predominantly apply a single fixed extractor to all webpages. In this work, we investigate whether this practice leads to suboptimal coverage and utilization of Internet data. We first show that while different extractors may lead to similar model performance on standard language understanding tasks, the pages surviving a fixed filtering pipeline can differ substantially. This suggests a simple intervention: by taking a Union over different extractors, we can increase the token yield of DCLM-Baseline by up to 71% while maintaining benchmark performance. We further show that for structured content such as tables and code blocks, extractor choice can significantly impact downstream task performance, with differences of up to 10 percentage points (p.p.) on WikiTQ and 3 p.p. on HumanEval.
- Abstract(参考訳): WebスケールのLLM事前トレーニングデータセットを構築するための最初の前処理ステップの1つは、HTMLからテキストを抽出することである。
膨大な量のWebコンテンツにもかかわらず、既存のオープンソースデータセットは、主にすべてのWebページに1つの固定抽出器を適用している。
本研究では,この手法がインターネットデータの最適範囲と利用に繋がるかどうかを検討する。
まず、異なる抽出器が標準言語理解タスクにおいて類似したモデル性能をもたらす可能性があるが、固定フィルタパイプラインを存続するページは、大きく異なる可能性があることを示す。
これは単純な介入を示唆している: 異なる抽出器をUnionに取り込むことで、ベンチマーク性能を維持しながら、DCLM-Baselineのトークン収率を最大71%向上させることができる。
さらに、テーブルやコードブロックなどの構造化コンテンツの場合、抽出器の選択は、WikiTQでは最大10ポイント(p.p.)、HumanEvalでは3パーセンテージ(p.p.)の差で、ダウンストリームタスクのパフォーマンスに著しく影響することを示した。
関連論文リスト
- Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM [35.10225876152952]
本稿では,軽量言語モデルを利用した効率的なHTML主コンテンツ抽出フレームワークであるDriipperを紹介する。
本稿では,ロジットプロセッサによる出力空間を厳格に制約する制御復号機構を提案する。
Dripperは、すべての評価ベンチマークで最先端のパフォーマンスを達成し、すべてのベースラインメソッドを上回っます。
論文 参考訳(メタデータ) (2025-11-28T12:04:46Z) - AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser [54.623900859999424]
我々は、コンテンツ抽出をシーケンスラベリング問題として再構成する新しい抽出パイプラインであるMinerU-HTMLを紹介する。
MainWebBenchでは、7,887の注釈付きWebページ、MinerU-HTML 81.8%のROUGE-N F1をTrfilaturaの63.6%と比較した。
論文 参考訳(メタデータ) (2025-11-20T14:15:23Z) - SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning [48.376164461507244]
本稿では,SCRIBES (SCRIpt-Based Semi-Structured Content extract at Web-Scale) を紹介する。
各ページを個別に処理するのではなく、SCRIBESは構造的に類似したWebページのグループに適用可能な再利用可能な抽出スクリプトを生成する。
実験の結果,本手法はスクリプト品質が13%以上向上し,GPT-4oでは4%以上向上することがわかった。
論文 参考訳(メタデータ) (2025-10-02T09:27:15Z) - Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction [6.09502686736443]
本稿では,Webデータ抽出のための具体的な評価フレームワークを提案する。
本フレームワークは,評価スナップショットを生成し,監視ラベルを注釈付けし,一貫したスコア付けに構造対応メトリクスを用いる。
また、LLM(Large Language Model)ベースのアプローチの入力を最適化する前処理も組み込まれている。
論文 参考訳(メタデータ) (2025-05-21T21:03:37Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。