論文の概要: Label-Efficient Self-Training for Attribute Extraction from
Semi-Structured Web Documents
- arxiv url: http://arxiv.org/abs/2208.13086v1
- Date: Sat, 27 Aug 2022 21:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:50:24.976665
- Title: Label-Efficient Self-Training for Attribute Extraction from
Semi-Structured Web Documents
- Title(参考訳): 半構造化Web文書からの属性抽出のためのラベル効率の良い自己学習
- Authors: Ritesh Sarkhel, Binxuan Huang, Colin Lockard, Prashant Shiralkar
- Abstract要約: Least - 半構造化Webドキュメントのためのラベル効率の良い自己学習手法
自己学習を用いて、人ラベルと擬似ラベルの両方のサンプルに対して、転送可能なWeb抽出モデルをトレーニングする。
これまでの最先端のウェブサイトでは、26以上のF1ポイントを上回っている。
- 参考スコア(独自算出の注目度): 15.199482560612555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting structured information from HTML documents is a long-studied
problem with a broad range of applications, including knowledge base
construction, faceted search, and personalized recommendation. Prior works rely
on a few human-labeled web pages from each target website or thousands of
human-labeled web pages from some seed websites to train a transferable
extraction model that generalizes on unseen target websites. Noisy content, low
site-level consistency, and lack of inter-annotator agreement make labeling web
pages a time-consuming and expensive ordeal. We develop LEAST -- a
Label-Efficient Self-Training method for Semi-Structured Web Documents to
overcome these limitations. LEAST utilizes a few human-labeled pages to
pseudo-annotate a large number of unlabeled web pages from the target vertical.
It trains a transferable web-extraction model on both human-labeled and
pseudo-labeled samples using self-training. To mitigate error propagation due
to noisy training samples, LEAST re-weights each training sample based on its
estimated label accuracy and incorporates it in training. To the best of our
knowledge, this is the first work to propose end-to-end training for
transferable web extraction models utilizing only a few human-labeled pages.
Experiments on a large-scale public dataset show that using less than ten
human-labeled pages from each seed website for training, a LEAST-trained model
outperforms previous state-of-the-art by more than 26 average F1 points on
unseen websites, reducing the number of human-labeled pages to achieve similar
performance by more than 10x.
- Abstract(参考訳): htmlドキュメントから構造化情報を抽出することは、知識ベース構築、ファセット検索、パーソナライズドレコメンデーションなど、幅広いアプリケーションで長年研究されてきた問題である。
以前の作業では、ターゲットwebサイトのいくつかの人ラベルwebページや、一部のシードwebサイトからの数千の人ラベルwebページを使用して、ターゲットwebサイトを一般化した転送可能な抽出モデルをトレーニングしている。
ノイズの多いコンテンツ、サイトレベルの一貫性の低い、アノテーション間の合意の欠如により、Webページのラベル付けは時間と費用のかかる作業になる。
我々は,これらの制限を克服するために,半構造化 Web ドキュメントのためのラベル効率の良い自己学習手法 LEAST を開発した。
少数の人ラベルページを使用して、ターゲットの垂直方向から多数のラベルのないwebページを擬似注釈する。
自己学習を用いて、人ラベルと疑似ラベルのサンプルの両方で転送可能なweb抽出モデルを訓練する。
ノイズのあるトレーニングサンプルによるエラー伝搬を軽減し、推定ラベル精度に基づいて各トレーニングサンプルを最小再重み付けし、トレーニングに組み込む。
私たちの知る限りでは、これは少数の人間ラベルページのみを利用した、転送可能なweb抽出モデルのエンドツーエンドトレーニングを提案する最初の作業です。
大規模な公開データセットの実験では、トレーニングのために各シードWebサイトから10ページ未満の人間ラベル付きページを使用することで、LEASTトレーニングされたモデルは、目に見えないWebサイト上で26以上の平均F1ポイントを上回り、人間ラベル付きページの数を10倍以上に削減する。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - GROWN+UP: A Graph Representation Of a Webpage Network Utilizing
Pre-training [0.2538209532048866]
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に微調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入する。
我々は,Webページボイラプレートの除去とジャンル分類という,非常に異なる2つのベンチマークで複数のデータセットを用いて,事前学習したモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-03T13:37:27Z) - Document Domain Randomization for Deep Learning Document Layout
Extraction [37.97092983885967]
文書領域のランダム化(DDR)は,図式化された擬似紙ページのみにトレーニングされた畳み込みニューラルネットワーク(CNN)の転送に成功した最初の例である。
DDRは、興味のあるランダム化されたテキストと非テキストの内容をモデル化することで、擬似文書ページをレンダリングする。
高忠実度意味情報はセマンティッククラスをラベル付けする必要はないが、列車とテスト間のスタイルミスマッチはモデルの精度を低下させる可能性がある。
論文 参考訳(メタデータ) (2021-05-20T19:16:04Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - FreeDOM: A Transferable Neural Architecture for Structured Information
Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。
第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。
第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文 参考訳(メタデータ) (2020-10-21T04:20:13Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。