論文の概要: WCXB: A Multi-Type Web Content Extraction Benchmark
- arxiv url: http://arxiv.org/abs/2605.21097v1
- Date: Wed, 20 May 2026 12:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.666609
- Title: WCXB: A Multi-Type Web Content Extraction Benchmark
- Title(参考訳): WCXB: マルチタイプのWebコンテンツ抽出ベンチマーク
- Authors: Murrough Foley,
- Abstract要約: 我々は1,613ドメインから2,008ページのデータセットであるWeb Content extract Benchmark (WCXB)を紹介した。
データセットは、1,497ページの開発セットと、マッチしたページタイプの分布を持つ511ページの保留テストセットを含む。
13の抽出システムを評価し,トップシステムは記事に収束する一方で,構造化ページタイプによって性能が著しく変化していることを見出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web content extraction - isolating a page's main content from surrounding boilerplate - is a prerequisite for search indexing, retrieval-augmented generation, NLP dataset construction, and large language model training. Progress in this area has been constrained by the limitations of existing evaluation benchmarks, which are small (100-800 pages), restricted to news articles, or based on web pages from over a decade ago. We introduce the Web Content Extraction Benchmark (WCXB), a dataset of 2,008 web pages from 1,613 domains spanning seven structurally distinct page types: articles, forums, products, collections, listings, documentation, and service pages. The dataset includes a 1,497-page development set and a 511-page held-out test set with matched page type distributions. Ground truth annotations were produced through a five-stage pipeline: LLM-assisted drafting, automated verification, four-pass frontier model review, snippet and quality verification scripts, and human review. We evaluate 13 extraction systems - 11 heuristic and 2 neural - and find that while top systems converge on articles (F1 = 0.93), performance diverges sharply on structured page types (F1 = 0.41-0.84), revealing blind spots invisible to existing article-only benchmarks. The dataset is released under CC-BY-4.0 with HTML source files, ground truth annotations, page type labels, and baseline results.
- Abstract(参考訳): Webコンテンツ抽出 - ページのメインコンテンツを囲むボイラープレートから分離する - は、検索インデックス作成、検索拡張生成、NLPデータセット構築、大規模言語モデルトレーニングの前提条件である。
この領域の進歩は、100-800ページの小さな評価ベンチマークの制限、ニュース記事に制限された、あるいは10年以上前のWebページに基づく、という制約によって制限されている。
記事,フォーラム,製品,コレクション,リスト,ドキュメント,サービスページという,構造的に異なる7つのページタイプにまたがる1,613のドメインから,2,008のWebページのデータセットであるWeb Content extract Benchmark (WCXB)を紹介した。
このデータセットは、1,497ページの開発セットと、マッチしたページタイプの分布を持つ511ページの保留テストセットを含む。
LLM支援のドラフト、自動検証、4パスのフロンティアモデルレビュー、スニペットと品質検証スクリプト、ヒューマンレビューである。
13の抽出システム – 11のヒューリスティックと2のニューラル – を評価し,トップシステムは記事に収束する(F1 = 0.93)一方で,構造化ページタイプ(F1 = 0.41-0.84)では性能が著しくばらつき,既存の記事のみのベンチマークでは見えない盲点が明らかになった。
データセットはCC-BY-4.0でリリースされ、HTMLソースファイル、接地真理アノテーション、ページタイプラベル、ベースライン結果がある。
関連論文リスト
- How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser [54.623900859999424]
我々は、コンテンツ抽出をシーケンスラベリング問題として再構成する新しい抽出パイプラインであるMinerU-HTMLを紹介する。
MainWebBenchでは、7,887の注釈付きWebページ、MinerU-HTML 81.8%のROUGE-N F1をTrfilaturaの63.6%と比較した。
論文 参考訳(メタデータ) (2025-11-20T14:15:23Z) - PinLanding: Content-First Keyword Landing Page Generation via Multi-Modal AI for Web-Scale Discovery [7.842599502996326]
我々はPinLandingを紹介します。PinLandingは、プラットフォームがトピックコレクションを作成する方法を変える、コンテンツファーストアーキテクチャです。
本システムでは,属性抽出のための視覚言語モデル(VLM)とトピック生成のための大規模言語モデル(LLM)と,正確なコンテンツマッチングのためのCLIPベースのデュアルエンコーダアーキテクチャを用いる。
論文 参考訳(メタデータ) (2025-03-01T20:55:28Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - PLAtE: A Large-scale Dataset for List Page Web Extraction [19.92099953576541]
PLAtEは6,694ページと156,014属性から収集された52,898項目で構成されており、これが最初の大規模リストページWeb抽出データセットである。
我々は、データセットの収集と注釈付けに多段階のアプローチを用い、3つの最先端Web抽出モデルを2つのタスクに適用し、その強みと弱さを定量的かつ質的に比較する。
論文 参考訳(メタデータ) (2022-05-24T22:26:58Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。