論文の概要: PLAtE: A Large-scale Dataset for List Page Web Extraction
- arxiv url: http://arxiv.org/abs/2205.12386v1
- Date: Tue, 24 May 2022 22:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:34:14.425898
- Title: PLAtE: A Large-scale Dataset for List Page Web Extraction
- Title(参考訳): plate: リストページweb抽出のための大規模データセット
- Authors: Aidan San, Jan Bakus, Colin Lockard, David Ciemiewicz, Yangfeng Ji,
Sandeep Atluri, Kevin Small, Heba Elfardy
- Abstract要約: PLAtEは、最初の大規模リストページWeb抽出データセットである。
我々は、Common Crawlからリストページを収集し、それをMechanical TurkにアノテートすることでPLAtEを構築する。
属性分類で0.750、セグメンテーションで0.915のF1スコアを達成するSOTAモデルを用いてPLAtE上での強いベースライン性能を確立した。
- 参考スコア(独自算出の注目度): 15.329956994152518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, neural models have been leveraged to significantly improve the
performance of information extraction from semi-structured websites. However, a
barrier for continued progress is the small number of datasets large enough to
train these models. In this work, we introduce the PLAtE (Pages of Lists
Attribute Extraction) dataset as a challenging new web extraction task. PLAtE
focuses on shopping data, specifically extractions from product review pages
with multiple items. PLAtE encompasses both the tasks of: (1) finding
product-list segmentation boundaries and (2) extracting attributes for each
product. PLAtE is composed of 53, 905 items from 6, 810 pages, making it the
first large-scale list page web extraction dataset. We construct PLAtE by
collecting list pages from Common Crawl, then annotating them on Mechanical
Turk. Quantitative and qualitative analyses are performed to demonstrate PLAtE
has high-quality annotations. We establish strong baseline performance on PLAtE
with a SOTA model achieving an F1-score of 0.750 for attribute classification
and 0.915 for segmentation, indicating opportunities for future research
innovations in web extraction.
- Abstract(参考訳): 近年,半構造化Webサイトからの情報抽出性能を大幅に向上するために,ニューラルモデルが活用されている。
しかし、継続的な進歩の障壁は、これらのモデルを訓練するのに十分な数のデータセットである。
本稿では,新しい Web 抽出タスクとして PLAtE (Pages of Lists Attribute extract) データセットを紹介する。
PLAtEは、買い物データ、特に複数のアイテムを持つ製品レビューページからの抽出に焦点を当てている。
PLAtEは、(1)製品リストのセグメンテーション境界を見つけ、(2)製品ごとに属性を抽出する。
PLAtEは6,810ページから53,905項目で構成されており,最初の大規模リストページWeb抽出データセットとなっている。
我々は、Common Crawlからリストページを収集し、それをMechanical TurkにアノテートすることでPLAtEを構築する。
量的・質的分析を行い,高品質の注記を有することを示す。
本稿では,属性分類のf1-score 0.750,セグメンテーションの0.915,web抽出における今後の研究革新の機会を示すsotaモデルを用いて,プレート上での強力なベースライン性能を確立する。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources [3.371205304404334]
本稿では,OARelatedWorkについて紹介する。OARelatedWorkは,関連作業生成のための,最初の大規模マルチドキュメント要約データセットである。
94の450の論文と5の824の689のユニークな参照論文を含んでいる。
本研究は,抽象文の代わりに全内容を用いた場合,ROUGE-2スコアにおいて,抽出要約の上限が217%増加することを示す。
論文 参考訳(メタデータ) (2024-05-03T08:49:22Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Jointly Learning Span Extraction and Sequence Labeling for Information
Extraction from Business Documents [1.6249267147413522]
本稿では,ビジネス文書の新しい情報抽出モデルを提案する。
これは、スパン抽出とシーケンスラベリングの両方の利点を考慮に入れている。
このモデルは2つのタスクを共同で最適化するために、エンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2022-05-26T15:37:24Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-18T23:56:12Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。