論文の概要: PLAtE: A Large-scale Dataset for List Page Web Extraction
- arxiv url: http://arxiv.org/abs/2205.12386v1
- Date: Tue, 24 May 2022 22:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:34:14.425898
- Title: PLAtE: A Large-scale Dataset for List Page Web Extraction
- Title(参考訳): plate: リストページweb抽出のための大規模データセット
- Authors: Aidan San, Jan Bakus, Colin Lockard, David Ciemiewicz, Yangfeng Ji,
Sandeep Atluri, Kevin Small, Heba Elfardy
- Abstract要約: PLAtEは、最初の大規模リストページWeb抽出データセットである。
我々は、Common Crawlからリストページを収集し、それをMechanical TurkにアノテートすることでPLAtEを構築する。
属性分類で0.750、セグメンテーションで0.915のF1スコアを達成するSOTAモデルを用いてPLAtE上での強いベースライン性能を確立した。
- 参考スコア(独自算出の注目度): 15.329956994152518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, neural models have been leveraged to significantly improve the
performance of information extraction from semi-structured websites. However, a
barrier for continued progress is the small number of datasets large enough to
train these models. In this work, we introduce the PLAtE (Pages of Lists
Attribute Extraction) dataset as a challenging new web extraction task. PLAtE
focuses on shopping data, specifically extractions from product review pages
with multiple items. PLAtE encompasses both the tasks of: (1) finding
product-list segmentation boundaries and (2) extracting attributes for each
product. PLAtE is composed of 53, 905 items from 6, 810 pages, making it the
first large-scale list page web extraction dataset. We construct PLAtE by
collecting list pages from Common Crawl, then annotating them on Mechanical
Turk. Quantitative and qualitative analyses are performed to demonstrate PLAtE
has high-quality annotations. We establish strong baseline performance on PLAtE
with a SOTA model achieving an F1-score of 0.750 for attribute classification
and 0.915 for segmentation, indicating opportunities for future research
innovations in web extraction.
- Abstract(参考訳): 近年,半構造化Webサイトからの情報抽出性能を大幅に向上するために,ニューラルモデルが活用されている。
しかし、継続的な進歩の障壁は、これらのモデルを訓練するのに十分な数のデータセットである。
本稿では,新しい Web 抽出タスクとして PLAtE (Pages of Lists Attribute extract) データセットを紹介する。
PLAtEは、買い物データ、特に複数のアイテムを持つ製品レビューページからの抽出に焦点を当てている。
PLAtEは、(1)製品リストのセグメンテーション境界を見つけ、(2)製品ごとに属性を抽出する。
PLAtEは6,810ページから53,905項目で構成されており,最初の大規模リストページWeb抽出データセットとなっている。
我々は、Common Crawlからリストページを収集し、それをMechanical TurkにアノテートすることでPLAtEを構築する。
量的・質的分析を行い,高品質の注記を有することを示す。
本稿では,属性分類のf1-score 0.750,セグメンテーションの0.915,web抽出における今後の研究革新の機会を示すsotaモデルを用いて,プレート上での強力なベースライン性能を確立する。
関連論文リスト
- Product Attribute Value Extraction using Large Language Models [56.96665345570965]
事前学習言語モデル(PLM)に基づく最先端属性/値抽出手法は2つの欠点に直面している。
我々は,大規模言語モデル(LLM)を,既存の属性/値抽出法に代わる,より訓練的なデータ効率,より堅牢な代替手段として活用する可能性を探る。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - CrossLingR: A Comprehensive Multilingual Receipt Dataset for
Cross-Language Information Extraction and Classification [15.434785564716796]
本研究は,レシート情報抽出と項目分類の分野における進歩を促進するために設計された,拡張的で斬新な多言語データセットを提案する。
本データセットは,47,720個の注釈付きサンプルを包含し,商品名,価格やブランドなどの関連属性を詳述し,44種類の製品カテゴリに分類した。
鍵情報抽出と項目分類のタスクにおいて,F1スコア0.76,精度0.68で証明された,重要な有効性を示す先駆的手法であるInstructLLaMA法を公表する。
論文 参考訳(メタデータ) (2023-09-18T14:18:19Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data [66.21317300595483]
機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。
私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
論文 参考訳(メタデータ) (2023-02-23T16:26:11Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Jointly Learning Span Extraction and Sequence Labeling for Information
Extraction from Business Documents [1.6249267147413522]
本稿では,ビジネス文書の新しい情報抽出モデルを提案する。
これは、スパン抽出とシーケンスラベリングの両方の利点を考慮に入れている。
このモデルは2つのタスクを共同で最適化するために、エンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2022-05-26T15:37:24Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-18T23:56:12Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。