論文の概要: ScrapeGraphAI-100k: A Large-Scale Dataset for LLM-Based Web Information Extraction
- arxiv url: http://arxiv.org/abs/2602.15189v1
- Date: Mon, 16 Feb 2026 20:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.905218
- Title: ScrapeGraphAI-100k: A Large-Scale Dataset for LLM-Based Web Information Extraction
- Title(参考訳): ScrapeGraphAI-100k: LLMに基づくWeb情報抽出のための大規模データセット
- Authors: William Brach, Francesco Zuppichini, Marco Vinciguerra, Lorenzo Padoan,
- Abstract要約: 実世界のLLM抽出イベントの大規模データセットであるScrapeGraphAI-100kを紹介する。
9Mイベントから始まり、スキーマで重複してバランスを取り、さまざまなドメインにまたがる93,695のサンプルを生成します。
データセットの構造的多様性とその障害モードを,スキーマの複雑性として特徴付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of large language models for web information extraction is becoming increasingly fundamental to modern web information retrieval pipelines. However, existing datasets tend to be small, synthetic or text-only, failing to capture the structural context of the web. We introduce ScrapeGraphAI-100k, a large-scale dataset comprising real-world LLM extraction events, collected via opt-in ScrapeGraphAI telemetry during Q2 and Q3 of 2025. Starting from 9M events, we deduplicate and balance by schema to produce 93,695 examples spanning diverse domains and languages. Each instance includes Markdown content, a prompt, a JSON schema, the LLM response, and complexity/validation metadata. We characterize the datasets structural diversity and its failure modes as schema complexity increases. We also provide a fine-tuning experiment showing that a small language model (1.7B) trained on a subset narrows the gap to larger baselines (30B), underscoring the datasets utility for efficient extraction. ScrapeGraphAI-100k enables fine-tuning small models, benchmarking structured extraction, and studying schema induction for web IR indexing, and is publicly available on HuggingFace.
- Abstract(参考訳): Web情報抽出における大規模言語モデルの利用は、現代のWeb情報検索パイプラインにおいて、ますます基礎となってきています。
しかし、既存のデータセットは小さく、合成され、あるいはテキストのみであり、Webの構造的コンテキストをキャプチャできない傾向にある。
ScrapeGraphAI-100kは,2025年第2四半期と第3四半期にオプトインしたScrapeGraphAIテレメトリによって収集された実世界のLLM抽出イベントからなる大規模データセットである。
9Mイベントから始まり、スキーマで重複してバランスを取り、さまざまなドメインや言語にまたがる93,695のサンプルを生成します。
それぞれのインスタンスには、Markdownコンテンツ、プロンプト、JSONスキーマ、LLMレスポンス、複雑性/バリデーションメタデータが含まれている。
スキーマの複雑性が増大するにつれて,データセットの構造的多様性とその障害モードを特徴付ける。
また、サブセットで訓練された小さな言語モデル(1.7B)が、そのギャップをより大きなベースライン(30B)に狭め、効率的な抽出のためにデータセットの有用性を過小評価することを示す微調整実験を行った。
ScrapeGraphAI-100kは、微調整された小さなモデル、構造化された抽出のベンチマーク、Web IRインデックスのためのスキーマインジェクションの研究を可能にし、HuggingFaceで公開されている。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Leveraging Large Language Models for Node Generation in Few-Shot Learning on Text-Attributed Graphs [5.587264586806575]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
LLMはラベルから意味情報を抽出し、模範としてカテゴリに属するサンプルを生成する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - PLAtE: A Large-scale Dataset for List Page Web Extraction [19.92099953576541]
PLAtEは6,694ページと156,014属性から収集された52,898項目で構成されており、これが最初の大規模リストページWeb抽出データセットである。
我々は、データセットの収集と注釈付けに多段階のアプローチを用い、3つの最先端Web抽出モデルを2つのタスクに適用し、その強みと弱さを定量的かつ質的に比較する。
論文 参考訳(メタデータ) (2022-05-24T22:26:58Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-18T23:56:12Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。