論文の概要: Simplified DOM Trees for Transferable Attribute Extraction from the Web
- arxiv url: http://arxiv.org/abs/2101.02415v1
- Date: Thu, 7 Jan 2021 07:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 18:54:04.643323
- Title: Simplified DOM Trees for Transferable Attribute Extraction from the Web
- Title(参考訳): webから転送可能な属性抽出のための簡易domツリー
- Authors: Yichao Zhou, Ying Sheng, Nguyen Vo, Nick Edmonds, Sandeep Tata
- Abstract要約: Webページを考えると、構造化されたオブジェクトと関心のあるさまざまな属性の抽出は、さまざまな下流アプリケーションを容易にします。
既存のアプローチは、DOMツリーノードのタグ付けタスクとして問題を定式化する。
本稿では,各ノードの有用なコンテキストを効率的に取得することで,この問題に取り組むための新しい転送可能な手法であるSimpDOMを提案する。
- 参考スコア(独自算出の注目度): 15.728164692696689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a steady need to precisely extract structured knowledge from
the web (i.e. HTML documents). Given a web page, extracting a structured object
along with various attributes of interest (e.g. price, publisher, author, and
genre for a book) can facilitate a variety of downstream applications such as
large-scale knowledge base construction, e-commerce product search, and
personalized recommendation. Considering each web page is rendered from an HTML
DOM tree, existing approaches formulate the problem as a DOM tree node tagging
task. However, they either rely on computationally expensive visual feature
engineering or are incapable of modeling the relationship among the tree nodes.
In this paper, we propose a novel transferable method, Simplified DOM Trees for
Attribute Extraction (SimpDOM), to tackle the problem by efficiently retrieving
useful context for each node by leveraging the tree structure. We study two
challenging experimental settings: (i) intra-vertical few-shot extraction, and
(ii) cross-vertical fewshot extraction with out-of-domain knowledge, to
evaluate our approach. Extensive experiments on the SWDE public dataset show
that SimpDOM outperforms the state-of-the-art (SOTA) method by 1.44% on the F1
score. We also find that utilizing knowledge from a different vertical
(cross-vertical extraction) is surprisingly useful and helps beat the SOTA by a
further 1.37%.
- Abstract(参考訳): ウェブから構造化された知識(すなわち)を正確に抽出する必要がある。
HTMLドキュメント)。
ウェブページが与えられたら、興味のある属性(例えば、)とともに構造化されたオブジェクトを抽出する。
price, publisher, author, and genre for a book)は、大規模な知識ベース構築、eコマース製品検索、パーソナライズドレコメンデーションなど、下流のさまざまなアプリケーションを促進することができる。
各WebページがHTML DOMツリーからレンダリングされていることを考慮すれば、既存のアプローチはDOMツリーノードタグタスクとして問題を定式化する。
しかしながら、計算コストの高いビジュアル機能工学に依存するか、ツリーノード間の関係をモデル化できないかのどちらかである。
本稿では,木構造を利用して各ノードの有用なコンテキストを効率よく検索し,その問題に対処するために,トランスファー可能な新しい手法であるSimplified DOM Trees for Attribute extract (SimpDOM)を提案する。
実験では,2つの難解な設定について検討した: (i) 逆数点抽出, (ii) 領域外知識を用いた逆数点抽出, アプローチの評価。
SWDEの公開データセットに関する大規模な実験によると、SimpDOMはF1スコアに対して、最先端(SOTA)メソッドを1.44%上回っている。
また、異なる垂直(垂直方向抽出)からの知識を活用することは驚くほど有用であり、SOTAをさらに1.37%上回るのに役立ちます。
関連論文リスト
- Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path [28.898240725099782]
ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
論文 参考訳(メタデータ) (2023-05-23T08:16:52Z) - Searching a High-Performance Feature Extractor for Text Recognition
Network [92.12492627169108]
優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。
空間は巨大で複雑な構造であるため、既存のNASアルゴリズムを適用することはできない。
本研究では,空間内を効率的に探索する2段階のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T03:49:04Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - FreeDOM: A Transferable Neural Architecture for Structured Information
Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。
第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。
第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文 参考訳(メタデータ) (2020-10-21T04:20:13Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。