論文の概要: ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages
- arxiv url: http://arxiv.org/abs/2005.07105v1
- Date: Thu, 14 May 2020 16:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-03 05:24:44.912641
- Title: ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages
- Title(参考訳): ZeroShotCeres: 半構造化Webページからのゼロショット関係抽出
- Authors: Colin Lockard, Prashant Shiralkar, Xin Luna Dong, Hannaneh Hajishirzi
- Abstract要約: 本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
- 参考スコア(独自算出の注目度): 66.45377533562417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many documents, such as semi-structured webpages, textual semantics are
augmented with additional information conveyed using visual elements including
layout, font size, and color. Prior work on information extraction from
semi-structured websites has required learning an extraction model specific to
a given template via either manually labeled or distantly supervised data from
that template. In this work, we propose a solution for "zero-shot" open-domain
relation extraction from webpages with a previously unseen template, including
from websites with little overlap with existing sources of knowledge for
distant supervision and websites in entirely new subject verticals. Our model
uses a graph neural network-based approach to build a rich representation of
text fields on a webpage and the relationships between them, enabling
generalization to new templates. Experiments show this approach provides a 31%
F1 gain over a baseline for zero-shot extraction in a new subject vertical.
- Abstract(参考訳): 半構造化ウェブページのような多くの文書では、テキストセマンティクスはレイアウト、フォントサイズ、色などの視覚的要素を用いて伝達される追加情報で拡張される。
以前の半構造化webサイトからの情報抽出作業では、手動でラベル付けされたり、遠方の教師付きデータを使って、所定のテンプレート特有の抽出モデルを学ぶ必要があった。
そこで本研究では,Webページから既往のテンプレートで「ゼロショット」なドメイン関係を抽出する手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを用いて、Webページ上のテキストフィールドとそれらの関係をリッチに表現し、新しいテンプレートへの一般化を可能にする。
実験によれば、このアプローチは、新しい主題の垂直方向におけるゼロショット抽出のベースラインよりも31%のf1ゲインを提供する。
関連論文リスト
- Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。
ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。
提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-03-21T04:56:24Z) - Combining Language and Graph Models for Semi-structured Information
Extraction on the Web [7.44454462555094]
本稿では,共同グラフと言語モデル構造に基づくオープンドメイン情報抽出手法であるGraphScholarBERTを提案する。
実験の結果、GraphScholarBERTはゼロショットドメインとゼロショットWebサイト設定での以前の作業と比較して、F1スコアの抽出を最大34.8%改善できることがわかった。
論文 参考訳(メタデータ) (2024-02-21T20:53:29Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path [28.898240725099782]
ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
論文 参考訳(メタデータ) (2023-05-23T08:16:52Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - FreeDOM: A Transferable Neural Architecture for Structured Information
Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。
第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。
第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文 参考訳(メタデータ) (2020-10-21T04:20:13Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Boilerplate Removal using a Neural Sequence Labeling Model [4.056234173482691]
本稿では,手作り機能に頼らず,Webページに現れるHTMLタグや単語のみを入力として利用するニューラルシーケンスラベリングモデルを提案する。
これにより、モデルを使用して、任意のWebページのコンテンツをブラウザ内で直接ハイライトするブラウザ拡張を提示できる。
論文 参考訳(メタデータ) (2020-04-22T08:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。