論文の概要: WebFormer: The Web-page Transformer for Structure Information Extraction
- arxiv url: http://arxiv.org/abs/2202.00217v1
- Date: Tue, 1 Feb 2022 04:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:46:34.240922
- Title: WebFormer: The Web-page Transformer for Structure Information Extraction
- Title(参考訳): webformer: 構造情報抽出のためのwebページトランスフォーマ
- Authors: Qifan Wang, Yi Fang, Anirudh Ravula, Fuli Feng, Xiaojun Quan, Dongfang
Liu
- Abstract要約: 構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
- 参考スコア(独自算出の注目度): 44.46531405460861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structure information extraction refers to the task of extracting structured
text fields from web pages, such as extracting a product offer from a shopping
page including product title, description, brand and price. It is an important
research topic which has been widely studied in document understanding and web
search. Recent natural language models with sequence modeling have demonstrated
state-of-the-art performance on web information extraction. However,
effectively serializing tokens from unstructured web pages is challenging in
practice due to a variety of web layout patterns. Limited work has focused on
modeling the web layout for extracting the text fields. In this paper, we
introduce WebFormer, a Web-page transFormer model for structure information
extraction from web documents. First, we design HTML tokens for each DOM node
in the HTML by embedding representations from their neighboring tokens through
graph attention. Second, we construct rich attention patterns between HTML
tokens and text tokens, which leverages the web layout for effective attention
weight computation. We conduct an extensive set of experiments on SWDE and
Common Crawl benchmarks. Experimental results demonstrate the superior
performance of the proposed approach over several state-of-the-art methods.
- Abstract(参考訳): 構造情報抽出とは、ウェブページから構造化テキストフィールドを抽出する作業のことであり、商品タイトル、説明、ブランド、価格を含むショッピングページから商品提供物を抽出する。
文書理解とWeb検索で広く研究されている重要な研究テーマである。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を示している。
しかし、非構造化webページからトークンを効果的にシリアライズすることは、様々なwebレイアウトパターンのため、実際には困難である。
限られた作業は、テキストフィールドを抽出するためのWebレイアウトのモデリングに焦点を当てている。
本稿では,Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
まず,HTML の各 DOM ノードに対する HTML トークンを,近隣のトークンからの表現をグラフアテンションに埋め込むことで設計する。
第2に,html トークンとテキストトークン間の集中度の高いパターンを構築し,web レイアウトを効果的に注意重み計算に活用する。
swde と common crawl ベンチマークに関する広範囲な実験を行った。
実験結果は,提案手法が最先端手法よりも優れていることを示した。
関連論文リスト
- Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path [28.898240725099782]
ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
論文 参考訳(メタデータ) (2023-05-23T08:16:52Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文 参考訳(メタデータ) (2022-01-25T20:10:32Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z) - Boilerplate Removal using a Neural Sequence Labeling Model [4.056234173482691]
本稿では,手作り機能に頼らず,Webページに現れるHTMLタグや単語のみを入力として利用するニューラルシーケンスラベリングモデルを提案する。
これにより、モデルを使用して、任意のWebページのコンテンツをブラウザ内で直接ハイライトするブラウザ拡張を提示できる。
論文 参考訳(メタデータ) (2020-04-22T08:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。