論文の概要: PLAtE: A Large-scale Dataset for List Page Web Extraction
- arxiv url: http://arxiv.org/abs/2205.12386v2
- Date: Thu, 15 Jun 2023 17:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:13:56.936283
- Title: PLAtE: A Large-scale Dataset for List Page Web Extraction
- Title(参考訳): plate: リストページweb抽出のための大規模データセット
- Authors: Aidan San, Yuan Zhuang, Jan Bakus, Colin Lockard, David Ciemiewicz,
Sandeep Atluri, Yangfeng Ji, Kevin Small, Heba Elfardy
- Abstract要約: PLAtEは6,694ページと156,014属性から収集された52,898項目で構成されており、これが最初の大規模リストページWeb抽出データセットである。
我々は、データセットの収集と注釈付けに多段階のアプローチを用い、3つの最先端Web抽出モデルを2つのタスクに適用し、その強みと弱さを定量的かつ質的に比較する。
- 参考スコア(独自算出の注目度): 19.92099953576541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, neural models have been leveraged to significantly improve the
performance of information extraction from semi-structured websites. However, a
barrier for continued progress is the small number of datasets large enough to
train these models. In this work, we introduce the PLAtE (Pages of Lists
Attribute Extraction) benchmark dataset as a challenging new web extraction
task. PLAtE focuses on shopping data, specifically extractions from product
review pages with multiple items encompassing the tasks of: (1) finding
product-list segmentation boundaries and (2) extracting attributes for each
product. PLAtE is composed of 52, 898 items collected from 6, 694 pages and
156, 014 attributes, making it the first largescale list page web extraction
dataset. We use a multi-stage approach to collect and annotate the dataset and
adapt three state-of-the-art web extraction models to the two tasks comparing
their strengths and weaknesses both quantitatively and qualitatively.
- Abstract(参考訳): 近年,半構造化Webサイトからの情報抽出性能を大幅に向上するために,ニューラルモデルが活用されている。
しかし、継続的な進歩の障壁は、これらのモデルを訓練するのに十分な数のデータセットである。
本稿では,新しいWeb抽出タスクとしてPLAtE(Pages of Lists Attribute extract)ベンチマークデータセットを紹介する。
PLAtEは,商品レビューページから,(1)商品リストのセグメンテーション境界の検索,(2)製品毎の属性の抽出といったタスクを含む複数の項目を抽出したショッピングデータに焦点を当てた。
PLAtEは6,694ページと156,014属性から収集された52,898項目で構成されており、これが最初の大規模リストページWeb抽出データセットである。
データセットの収集とアノテートに多段階のアプローチを採用し,3つの最先端web抽出モデルを用いて,その長所と短所を定量的・質的に比較した。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources [3.371205304404334]
本稿では,OARelatedWorkについて紹介する。OARelatedWorkは,関連作業生成のための,最初の大規模マルチドキュメント要約データセットである。
94の450の論文と5の824の689のユニークな参照論文を含んでいる。
本研究は,抽象文の代わりに全内容を用いた場合,ROUGE-2スコアにおいて,抽出要約の上限が217%増加することを示す。
論文 参考訳(メタデータ) (2024-05-03T08:49:22Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Jointly Learning Span Extraction and Sequence Labeling for Information
Extraction from Business Documents [1.6249267147413522]
本稿では,ビジネス文書の新しい情報抽出モデルを提案する。
これは、スパン抽出とシーケンスラベリングの両方の利点を考慮に入れている。
このモデルは2つのタスクを共同で最適化するために、エンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2022-05-26T15:37:24Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-18T23:56:12Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。