論文の概要: SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.01832v1
- Date: Thu, 02 Oct 2025 09:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.074462
- Title: SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning
- Title(参考訳): SCRIBES: 強化学習によるWebスケールスクリプトベースの半構造化データ抽出
- Authors: Shicheng Liu, Kai Sun, Lisheng Fu, Xilun Chen, Xinyuan Zhang, Zhaojiang Lin, Rulin Shao, Yue Liu, Anuj Kumar, Wen-tau Yih, Xin Luna Dong,
- Abstract要約: 本稿では,SCRIBES (SCRIpt-Based Semi-Structured Content extract at Web-Scale) を紹介する。
各ページを個別に処理するのではなく、SCRIBESは構造的に類似したWebページのグループに適用可能な再利用可能な抽出スクリプトを生成する。
実験の結果,本手法はスクリプト品質が13%以上向上し,GPT-4oでは4%以上向上することがわかった。
- 参考スコア(独自算出の注目度): 48.376164461507244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-structured content in HTML tables, lists, and infoboxes accounts for a substantial share of factual data on the web, yet the formatting complicates usage, and reliably extracting structured information from them remains challenging. Existing methods either lack generalization or are resource-intensive due to per-page LLM inference. In this paper, we introduce SCRIBES (SCRIpt-Based Semi-Structured Content Extraction at Web-Scale), a novel reinforcement learning framework that leverages layout similarity across webpages within the same site as a reward signal. Instead of processing each page individually, SCRIBES generates reusable extraction scripts that can be applied to groups of structurally similar webpages. Our approach further improves by iteratively training on synthetic annotations from in-the-wild CommonCrawl data. Experiments show that our approach outperforms strong baselines by over 13% in script quality and boosts downstream question answering accuracy by more than 4% for GPT-4o, enabling scalable and resource-efficient web information extraction.
- Abstract(参考訳): HTMLテーブル、リスト、インフォボックスの半構造化されたコンテンツは、Web上の事実データのかなりの割合を占めるが、フォーマットは使用を複雑にし、構造化された情報を確実に抽出するのは難しい。
既存の手法は一般化を欠いているか、ページごとのLCM推論のためにリソース集約的である。
本稿では,SCRIBES(SCRIpt-Based Semi-Structured Content extract at Web-Scale)を紹介する。
各ページを個別に処理するのではなく、SCRIBESは構造的に類似したWebページのグループに適用可能な再利用可能な抽出スクリプトを生成する。
提案手法は,既存のCommonCrawlデータから合成アノテーションを反復的にトレーニングすることにより,さらに改善される。
実験により,本手法はスクリプトの品質が13%以上向上し,GPT-4oのダウンストリーム質問応答精度が4%以上向上し,スケーラブルで資源効率のよいWeb情報抽出を可能にした。
関連論文リスト
- Decoding Latent Attack Surfaces in LLMs: Prompt Injection via HTML in Web Summarization [1.3537117504260623]
大規模言語モデル(LLM)は、コンテンツ要約のためのWebベースシステムに統合されつつある。
本研究では、Webページの可視コンテンツを変更することなく、非可視的なHTML要素をどのように活用して敵の命令を埋め込むかを検討する。
論文 参考訳(メタデータ) (2025-09-06T21:05:18Z) - Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction [83.0216122783429]
Web Restruction(WebR)は、Webドキュメントから直接高品質な命令チューニング(IT)データを合成するための、完全に自動化されたフレームワークである。
WebRが生成したデータセットは、4つのインストラクションフォローベンチマークで、最先端のベースラインを最大16.65%上回ります。
論文 参考訳(メタデータ) (2025-04-22T04:07:13Z) - HTML-LSTM: Information Extraction from HTML Tables in Web Pages using Tree-Structured LSTM [1.104960878651584]
我々は,複数のHTMLテーブルを単一のテーブルに統合し,様々なWebページに含まれる情報の検索を目指す。
HTMLデータの言語情報と構造情報の両方を抽出するために,木構造データのためのニューラルネットワークである木構造LSTMを拡張して設計する。
論文 参考訳(メタデータ) (2024-09-28T19:58:29Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。