Fugu-MT 論文翻訳(概要): PLAtE: A Large-scale Dataset for List Page Web Extraction

論文の概要: PLAtE: A Large-scale Dataset for List Page Web Extraction

arxiv url: http://arxiv.org/abs/2205.12386v1
Date: Tue, 24 May 2022 22:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-26 13:34:14.425898
Title: PLAtE: A Large-scale Dataset for List Page Web Extraction
Title（参考訳）: plate: リストページweb抽出のための大規模データセット
Authors: Aidan San, Jan Bakus, Colin Lockard, David Ciemiewicz, Yangfeng Ji, Sandeep Atluri, Kevin Small, Heba Elfardy
Abstract要約: PLAtEは、最初の大規模リストページWeb抽出データセットである。我々は、Common Crawlからリストページを収集し、それをMechanical TurkにアノテートすることでPLAtEを構築する。属性分類で0.750、セグメンテーションで0.915のF1スコアを達成するSOTAモデルを用いてPLAtE上での強いベースライン性能を確立した。
参考スコア（独自算出の注目度）: 15.329956994152518
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, neural models have been leveraged to significantly improve the performance of information extraction from semi-structured websites. However, a barrier for continued progress is the small number of datasets large enough to train these models. In this work, we introduce the PLAtE (Pages of Lists Attribute Extraction) dataset as a challenging new web extraction task. PLAtE focuses on shopping data, specifically extractions from product review pages with multiple items. PLAtE encompasses both the tasks of: (1) finding product-list segmentation boundaries and (2) extracting attributes for each product. PLAtE is composed of 53, 905 items from 6, 810 pages, making it the first large-scale list page web extraction dataset. We construct PLAtE by collecting list pages from Common Crawl, then annotating them on Mechanical Turk. Quantitative and qualitative analyses are performed to demonstrate PLAtE has high-quality annotations. We establish strong baseline performance on PLAtE with a SOTA model achieving an F1-score of 0.750 for attribute classification and 0.915 for segmentation, indicating opportunities for future research innovations in web extraction.
Abstract（参考訳）: 近年,半構造化Webサイトからの情報抽出性能を大幅に向上するために,ニューラルモデルが活用されている。しかし、継続的な進歩の障壁は、これらのモデルを訓練するのに十分な数のデータセットである。本稿では,新しい Web 抽出タスクとして PLAtE (Pages of Lists Attribute extract) データセットを紹介する。 PLAtEは、買い物データ、特に複数のアイテムを持つ製品レビューページからの抽出に焦点を当てている。 PLAtEは、(1)製品リストのセグメンテーション境界を見つけ、(2)製品ごとに属性を抽出する。 PLAtEは6,810ページから53,905項目で構成されており,最初の大規模リストページWeb抽出データセットとなっている。我々は、Common Crawlからリストページを収集し、それをMechanical TurkにアノテートすることでPLAtEを構築する。量的・質的分析を行い,高品質の注記を有することを示す。本稿では,属性分類のf1-score 0.750,セグメンテーションの0.915,web抽出における今後の研究革新の機会を示すsotaモデルを用いて,プレート上での強力なベースライン性能を確立する。

関連論文リスト

Multi-Record Web Page Information Extraction From News Websites [83.88591755871734]
本稿では,多数のレコードを含むWebページから情報を抽出する問題に焦点をあてる。このギャップに対処するため、リストページ用に設計された大規模なオープンアクセスデータセットを作成しました。我々のデータセットには13,120のWebページとニュースリストがあり、スケールと複雑さの両方で既存のデータセットをはるかに上回っている。
論文参考訳（メタデータ） (2025-02-20T15:05:00Z)
Multilingual Attribute Extraction from News Web Pages [44.99833362998488]
本稿では,複数の言語にまたがるニュース記事ページから属性を自動的に抽出するという課題に対処する。我々は6言語(英語、ドイツ語、ロシア語、中国語、韓国語、アラビア語)にわたる3,172のマークアップニュースページからなる多言語データセットを作成した。学習済みの最先端モデルであるMarkupLMを微調整し、これらのページからニュース属性を抽出し、ページを英語に翻訳することが抽出品質に与える影響を評価した。
論文参考訳（メタデータ） (2025-02-04T09:43:40Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources [3.371205304404334]
本稿では,OARelatedWorkについて紹介する。OARelatedWorkは,関連作業生成のための,最初の大規模マルチドキュメント要約データセットである。 94の450の論文と5の824の689のユニークな参照論文を含んでいる。本研究は,抽象文の代わりに全内容を用いた場合,ROUGE-2スコアにおいて,抽出要約の上限が217%増加することを示す。
論文参考訳（メタデータ） (2024-05-03T08:49:22Z)
Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文参考訳（メタデータ） (2024-03-04T03:21:40Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文参考訳（メタデータ） (2023-06-23T09:30:01Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
Jointly Learning Span Extraction and Sequence Labeling for Information Extraction from Business Documents [1.6249267147413522]
本稿では,ビジネス文書の新しい情報抽出モデルを提案する。これは、スパン抽出とシーケンスラベリングの両方の利点を考慮に入れている。このモデルは2つのタスクを共同で最適化するために、エンドツーエンドで訓練されている。
論文参考訳（メタデータ） (2022-05-26T15:37:24Z)
WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (2022-02-01T04:44:02Z)
The Klarna Product Page Dataset: Web Element Nomination with Graph Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文参考訳（メタデータ） (2021-11-03T12:13:52Z)
Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。 WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文参考訳（メタデータ） (2021-08-05T06:28:32Z)
WebRED: Effective Pretraining And Finetuning For Relation Extraction On The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文参考訳（メタデータ） (2021-02-18T23:56:12Z)
A Large-Scale Multi-Document Summarization Dataset from the Wikipedia Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文参考訳（メタデータ） (2020-05-20T14:33:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。