論文の概要: Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path
- arxiv url: http://arxiv.org/abs/2305.13805v1
- Date: Tue, 23 May 2023 08:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:58:16.330341
- Title: Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path
- Title(参考訳): Webマイニングにおけるゼロショット関係抽出に向けて:相対XMLパスを用いたマルチモーダルアプローチ
- Authors: Zilong Wang, Jingbo Shang
- Abstract要約: ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
- 参考スコア(独自算出の注目度): 28.898240725099782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of web pages and the increasing complexity of their
structure poses a challenge for web mining models. Web mining models are
required to understand the semi-structured web pages, particularly when little
is known about the subject or template of a new page. Current methods migrate
language models to the web mining by embedding the XML source code into the
transformer or encoding the rendered layout with graph neural networks.
However, these approaches do not take into account the relationships between
text nodes within and across pages. In this paper, we propose a new approach,
ReXMiner, for zero-shot relation extraction in web mining. ReXMiner encodes the
shortest relative paths in the Document Object Model (DOM) tree which is a more
accurate and efficient signal for key-value pair extraction within a web page.
It also incorporates the popularity of each text node by counting the
occurrence of the same text node across different web pages. We use the
contrastive learning to address the issue of sparsity in relation extraction.
Extensive experiments on public benchmarks show that our method, ReXMiner,
outperforms the state-of-the-art baselines in the task of zero-shot relation
extraction in web mining.
- Abstract(参考訳): ウェブページの急速な成長とそれらの構造の複雑さの増大は、Webマイニングモデルに課題をもたらす。
Webマイニングモデルは、特に新しいページの主題やテンプレートについてほとんど知られていない場合、半構造化されたWebページを理解するために必要である。
現在の手法では、xmlソースコードをトランスフォーマーに埋め込むか、グラフニューラルネットワークで描画されたレイアウトをエンコードすることで、言語モデルをwebマイニングに移行する。
しかし、これらのアプローチはページ内とページ間のテキストノード間の関係を考慮していない。
本稿では,ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
我々は,関係抽出におけるスパーシティの問題に対処するために,コントラスト学習を用いる。
提案手法であるReXMinerは,Webマイニングにおけるゼロショット関係抽出のタスクにおいて,最先端のベースラインよりも優れていることを示す。
関連論文リスト
- AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - Web Page Content Extraction Based on Multi-feature Fusion [20.214440785390984]
本稿では,多機能融合に基づくWebページテキスト抽出アルゴリズムを提案する。
DOMノードの複数の機能を入力として取り、ノードにテキスト情報が含まれているかどうかを予測し、より多くのタイプのページに適応する。
実験の結果,本手法はWebページテキスト抽出能力に優れており,手作業による閾値決定の問題を回避することができることがわかった。
論文 参考訳(メタデータ) (2022-03-21T04:26:51Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - Modeling Graph Structure via Relative Position for Text Generation from
Knowledge Graphs [54.176285420428776]
グラフ-テキスト生成のための新しいトランスフォーマーベースのエンコーダデコーダアーキテクチャであるGraformerを提案する。
新たなグラフの自己アテンションでは、ノードのエンコーディングは入力グラフのすべてのノードに依存します。
グレーフォーマーは、これらのノード-ノードの関係を異なるアテンションヘッドに対して異なる重み付けを学習し、入力グラフの異なる連結ビューを仮想的に学習する。
論文 参考訳(メタデータ) (2020-06-16T15:20:04Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z) - Heterogeneous Graph Neural Networks for Extractive Document
Summarization [101.17980994606836]
クロス文関係は、抽出文書要約における重要なステップである。
We present a graph-based neural network for extractive summarization (HeterSumGraph)
抽出文書要約のためのグラフベースニューラルネットワークに異なる種類のノードを導入する。
論文 参考訳(メタデータ) (2020-04-26T14:38:11Z) - Boilerplate Removal using a Neural Sequence Labeling Model [4.056234173482691]
本稿では,手作り機能に頼らず,Webページに現れるHTMLタグや単語のみを入力として利用するニューラルシーケンスラベリングモデルを提案する。
これにより、モデルを使用して、任意のWebページのコンテンツをブラウザ内で直接ハイライトするブラウザ拡張を提示できる。
論文 参考訳(メタデータ) (2020-04-22T08:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。