Fugu-MT 論文翻訳(概要): Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

論文の概要: Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

arxiv url: http://arxiv.org/abs/2602.19548v1
Date: Mon, 23 Feb 2026 06:41:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.702319
Title: Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
Title（参考訳）: 単一エクストラクタを超えて: LLM事前トレーニングのためのHTML-to-Text抽出の再考
Authors: Jeffrey Li, Josh Gardner, Doug Kang, Fangping Shi, Karanjeet Singh, Chun-Liang Li, Herumb Shandilya, David Hall, Oncel Tuzel, Percy Liang, Ludwig Schmidt, Hadi Pour Ansari, Fartash Faghri,
Abstract要約: 表やコードブロックなどの構造化コンテンツの場合、抽出器の選択は下流のタスク性能に大きな影響を及ぼすことを示す。これは単純な介入を示唆している: 異なる抽出器をユニオンに取り込むことで、DCLM-Baselineのトークン収率を最大71%向上させることができる。
参考スコア（独自算出の注目度）: 78.36592534300839
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the first pre-processing steps for constructing web-scale LLM pretraining datasets involves extracting text from HTML. Despite the immense diversity of web content, existing open-source datasets predominantly apply a single fixed extractor to all webpages. In this work, we investigate whether this practice leads to suboptimal coverage and utilization of Internet data. We first show that while different extractors may lead to similar model performance on standard language understanding tasks, the pages surviving a fixed filtering pipeline can differ substantially. This suggests a simple intervention: by taking a Union over different extractors, we can increase the token yield of DCLM-Baseline by up to 71% while maintaining benchmark performance. We further show that for structured content such as tables and code blocks, extractor choice can significantly impact downstream task performance, with differences of up to 10 percentage points (p.p.) on WikiTQ and 3 p.p. on HumanEval.
Abstract（参考訳）: WebスケールのLLM事前トレーニングデータセットを構築するための最初の前処理ステップの1つは、HTMLからテキストを抽出することである。膨大な量のWebコンテンツにもかかわらず、既存のオープンソースデータセットは、主にすべてのWebページに1つの固定抽出器を適用している。本研究では,この手法がインターネットデータの最適範囲と利用に繋がるかどうかを検討する。まず、異なる抽出器が標準言語理解タスクにおいて類似したモデル性能をもたらす可能性があるが、固定フィルタパイプラインを存続するページは、大きく異なる可能性があることを示す。これは単純な介入を示唆している: 異なる抽出器をUnionに取り込むことで、ベンチマーク性能を維持しながら、DCLM-Baselineのトークン収率を最大71%向上させることができる。さらに、テーブルやコードブロックなどの構造化コンテンツの場合、抽出器の選択は、WikiTQでは最大10ポイント(p.p.)、HumanEvalでは3パーセンテージ(p.p.)の差で、ダウンストリームタスクのパフォーマンスに著しく影響することを示した。

関連論文リスト

An Index-based Approach for Efficient and Effective Web Content Extraction [38.40209116782093]
索引に基づくWebコンテンツ抽出について紹介する。我々はHTMLを構造対応のアドレス可能なセグメントに分割し、あるクエリに関連するコンテンツの位置インデックスのみを抽出する。本手法は、コンテンツ長からの抽出遅延を分離し、高速なクエリ関連抽出を可能にする。
論文参考訳（メタデータ） (2025-12-07T03:18:19Z)
Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM [35.10225876152952]
本稿では,軽量言語モデルを利用した効率的なHTML主コンテンツ抽出フレームワークであるDriipperを紹介する。本稿では,ロジットプロセッサによる出力空間を厳格に制約する制御復号機構を提案する。 Dripperは、すべての評価ベンチマークで最先端のパフォーマンスを達成し、すべてのベースラインメソッドを上回っます。
論文参考訳（メタデータ） (2025-11-28T12:04:46Z)
AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser [54.623900859999424]
我々は、コンテンツ抽出をシーケンスラベリング問題として再構成する新しい抽出パイプラインであるMinerU-HTMLを紹介する。 MainWebBenchでは、7,887の注釈付きWebページ、MinerU-HTML 81.8%のROUGE-N F1をTrfilaturaの63.6%と比較した。
論文参考訳（メタデータ） (2025-11-20T14:15:23Z)
SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning [48.376164461507244]
本稿では,SCRIBES (SCRIpt-Based Semi-Structured Content extract at Web-Scale) を紹介する。各ページを個別に処理するのではなく、SCRIBESは構造的に類似したWebページのグループに適用可能な再利用可能な抽出スクリプトを生成する。実験の結果,本手法はスクリプト品質が13%以上向上し,GPT-4oでは4%以上向上することがわかった。
論文参考訳（メタデータ） (2025-10-02T09:27:15Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文参考訳（メタデータ） (2025-06-05T07:12:12Z)
NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction [6.09502686736443]
本稿では,Webデータ抽出のための具体的な評価フレームワークを提案する。本フレームワークは,評価スナップショットを生成し,監視ラベルを注釈付けし,一貫したスコア付けに構造対応メトリクスを用いる。また、LLM(Large Language Model)ベースのアプローチの入力を最適化する前処理も組み込まれている。
論文参考訳（メタデータ） (2025-05-21T21:03:37Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文参考訳（メタデータ） (2022-10-08T07:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。