論文の概要: Multi-Record Web Page Information Extraction From News Websites
- arxiv url: http://arxiv.org/abs/2502.14625v1
- Date: Thu, 20 Feb 2025 15:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:31.305456
- Title: Multi-Record Web Page Information Extraction From News Websites
- Title(参考訳): ニュースサイトからのマルチレコーダWebページ情報抽出
- Authors: Alexander Kustenkov, Maksim Varlamov, Alexander Yatskov,
- Abstract要約: 本稿では,多数のレコードを含むWebページから情報を抽出する問題に焦点をあてる。
このギャップに対処するため、リストページ用に設計された大規模なオープンアクセスデータセットを作成しました。
我々のデータセットには13,120のWebページとニュースリストがあり、スケールと複雑さの両方で既存のデータセットをはるかに上回っている。
- 参考スコア(独自算出の注目度): 83.88591755871734
- License:
- Abstract: In this paper, we focused on the problem of extracting information from web pages containing many records, a task of growing importance in the era of massive web data. Recently, the development of neural network methods has improved the quality of information extraction from web pages. Nevertheless, most of the research and datasets are aimed at studying detailed pages. This has left multi-record "list pages" relatively understudied, despite their widespread presence and practical significance. To address this gap, we created a large-scale, open-access dataset specifically designed for list pages. This is the first dataset for this task in the Russian language. Our dataset contains 13,120 web pages with news lists, significantly exceeding existing datasets in both scale and complexity. Our dataset contains attributes of various types, including optional and multi-valued, providing a realistic representation of real-world list pages. These features make our dataset a valuable resource for studying information extraction from pages containing many records. Furthermore, we proposed our own multi-stage information extraction methods. In this work, we explore and demonstrate several strategies for applying MarkupLM to the specific challenges of multi-record web pages. Our experiments validate the advantages of our methods. By releasing our dataset to the public, we aim to advance the field of information extraction from multi-record pages.
- Abstract(参考訳): 本稿では,大量の記録を含むWebページから情報を抽出する問題に焦点をあてる。
近年,ニューラルネットワーク手法の開発により,Webページからの情報抽出の品質が向上している。
それにもかかわらず、研究とデータセットのほとんどは詳細なページの研究を目的としている。
これにより、多録音の「リストページ」は、広く存在感と実践的な重要性にもかかわらず、比較的研究が進められている。
このギャップに対処するため、リストページ用に設計された大規模なオープンアクセスデータセットを作成しました。
これはロシア語でこのタスクのための最初のデータセットである。
我々のデータセットには13,120のWebページとニュースリストがあり、スケールと複雑さの両方で既存のデータセットをはるかに上回っている。
我々のデータセットには、オプションや複数値を含む様々なタイプの属性が含まれており、実世界のリストページのリアルな表現を提供しています。
これらの特徴により、データセットは多くのレコードを含むページから情報を取り出すための貴重なリソースとなる。
さらに,我々は多段階情報抽出手法を提案する。
本稿では,マルチレコードWebページの特定の課題にMarkupLMを適用するためのいくつかの戦略を探求し,実証する。
我々の実験は我々の方法の利点を検証した。
データセットを一般公開することで、マルチレコードページから情報抽出の分野を前進させることを目指しています。
関連論文リスト
- MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels [95.48844474720798]
我々は,MS MARCO Web Searchを紹介した。
このデータセットは現実世界のWebドキュメントとクエリ分布を模倣する。
MS MARCO Web Searchは3つのウェブ検索課題を伴う検索ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-05-13T07:46:44Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - PLAtE: A Large-scale Dataset for List Page Web Extraction [19.92099953576541]
PLAtEは6,694ページと156,014属性から収集された52,898項目で構成されており、これが最初の大規模リストページWeb抽出データセットである。
我々は、データセットの収集と注釈付けに多段階のアプローチを用い、3つの最先端Web抽出モデルを2つのタスクに適用し、その強みと弱さを定量的かつ質的に比較する。
論文 参考訳(メタデータ) (2022-05-24T22:26:58Z) - Web Page Content Extraction Based on Multi-feature Fusion [20.214440785390984]
本稿では,多機能融合に基づくWebページテキスト抽出アルゴリズムを提案する。
DOMノードの複数の機能を入力として取り、ノードにテキスト情報が含まれているかどうかを予測し、より多くのタイプのページに適応する。
実験の結果,本手法はWebページテキスト抽出能力に優れており,手作業による閾値決定の問題を回避することができることがわかった。
論文 参考訳(メタデータ) (2022-03-21T04:26:51Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - A Large Visual, Qualitative and Quantitative Dataset of Web Pages [4.5002924206836]
49,438ページの大規模なデータセットを作成しました。
視覚、テキスト、数値のデータタイプで構成され、世界中のすべての国を含み、幅広いトピックを検討しています。
論文 参考訳(メタデータ) (2021-05-15T01:31:25Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。