論文の概要: LiveWeb-IE: A Benchmark For Online Web Information Extraction
- arxiv url: http://arxiv.org/abs/2603.13773v1
- Date: Sat, 14 Mar 2026 05:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.397439
- Title: LiveWeb-IE: A Benchmark For Online Web Information Extraction
- Title(参考訳): LiveWeb-IE:オンラインWeb情報抽出のベンチマーク
- Authors: Seungbin Yang, Jihwan Kim, Jaemin Choi, Dongjin Kim, Soyoung Yang, ChaeHun Park, Jaegul Choo,
- Abstract要約: Web情報抽出(WIE)は、Webページから自動的にデータを抽出するタスクであり、様々なアプリケーションに高いユーティリティを提供する。
ライブWebサイトに対して,WIEシステムを直接評価するための新しいベンチマークである,データセットを導入する。
また,Webページコンテンツを視覚的に絞り込み,所望の情報を抽出することで,人間の認知過程を模倣する新しい多段階エージェントフレームワークであるVisual Grounding Scraper (VGS)を提案する。
- 参考スコア(独自算出の注目度): 48.82654261583883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web information extraction (WIE) is the task of automatically extracting data from web pages, offering high utility for various applications. The evaluation of WIE systems has traditionally relied on benchmarks built from HTML snapshots captured at a single point in time. However, this offline evaluation paradigm fails to account for the temporally evolving nature of the web; consequently, performance on these static benchmarks often fails to generalize to dynamic real-world scenarios. To bridge this gap, we introduce \dataset, a new benchmark designed for evaluating WIE systems directly against live websites. Based on trusted and permission-granted websites, we curate natural language queries that require information extraction of various data categories, such as text, images, and hyperlinks. We further design these queries to represent four levels of complexity, based on the number and cardinality of attributes to be extracted, enabling a granular assessment of WIE systems. In addition, we propose Visual Grounding Scraper (VGS), a novel multi-stage agentic framework that mimics human cognitive processes by visually narrowing down web page content to extract desired information. Extensive experiments across diverse backbone models demonstrate the effectiveness and robustness of VGS. We believe that this study lays the foundation for developing practical and robust WIE systems.
- Abstract(参考訳): Web情報抽出(WIE)は、Webページから自動的にデータを抽出するタスクであり、様々なアプリケーションに高いユーティリティを提供する。
WIEシステムの評価は、伝統的に、単一の時点でキャプチャされたHTMLスナップショットから構築されたベンチマークに依存してきた。
しかし、このオフライン評価パラダイムは、Webの時間的に進化する性質を考慮できないため、静的ベンチマークのパフォーマンスは、しばしば動的な現実のシナリオに一般化できない。
このギャップを埋めるために、生のWebサイトに対して直接WIEシステムを評価するために設計された新しいベンチマークである \datasetを紹介します。
信頼された,許可されたWebサイトに基づいて,テキストや画像,ハイパーリンクなど,さまざまなデータカテゴリの情報抽出を必要とする自然言語クエリをキュレートする。
さらに、抽出する属性の数と濃度に基づいて、これらのクエリを4段階の複雑さを表すように設計し、WIEシステムの詳細な評価を可能にした。
さらに,Webページコンテンツを視覚的に絞り込み,所望の情報を抽出することで,人間の認知過程を模倣する新しい多段階エージェントフレームワークであるVisual Grounding Scraper (VGS)を提案する。
様々なバックボーンモデルに対する大規模な実験は、VGSの有効性と堅牢性を示している。
我々は,本研究が,実用的で堅牢なWIEシステム開発の基礎となると信じている。
関連論文リスト
- WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。
また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-05T08:47:39Z) - WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。