論文の概要: PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network
- arxiv url: http://arxiv.org/abs/2305.05378v1
- Date: Tue, 9 May 2023 12:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:59:16.379454
- Title: PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network
- Title(参考訳): PLM-GNN:共同事前学習言語モデルとグラフニューラルネットワークに基づくWebページ分類手法
- Authors: Qiwei Lang, Jingbo Zhou, Haoyi Wang, Shiqi Lyu, Rui Zhang
- Abstract要約: PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
- 参考スコア(独自算出の注目度): 19.75890828376791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The number of web pages is growing at an exponential rate, accumulating
massive amounts of data on the web. It is one of the key processes to classify
webpages in web information mining. Some classical methods are based on
manually building features of web pages and training classifiers based on
machine learning or deep learning. However, building features manually requires
specific domain knowledge and usually takes a long time to validate the
validity of features. Considering webpages generated by the combination of text
and HTML Document Object Model(DOM) trees, we propose a representation and
classification method based on a pre-trained language model and graph neural
network, named PLM-GNN. It is based on the joint encoding of text and HTML DOM
trees in the web pages. It performs well on the KI-04 and SWDE datasets and on
practical dataset AHS for the project of scholar's homepage crawling.
- Abstract(参考訳): ウェブページの数は指数関数的に増加しており、ウェブ上の膨大なデータを蓄積している。
これはWebページをWeb情報マイニングで分類する重要なプロセスの1つである。
いくつかの古典的手法は、手動でWebページの機能を構築し、機械学習やディープラーニングに基づいて分類器を訓練する。
しかし、機能の構築には特定のドメイン知識が必要であり、通常、機能の妥当性を検証するのに長い時間がかかる。
テキストとHTML文書オブジェクトモデル(DOM)木の組み合わせにより生成されたWebページを考慮し、事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法、PLM-GNNを提案する。
これは、Webページ内のテキストとHTML DOMツリーの合同エンコーディングに基づいている。
KI-04 と SWDE のデータセットと、学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
関連論文リスト
- Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path [28.898240725099782]
ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
論文 参考訳(メタデータ) (2023-05-23T08:16:52Z) - WebBrain: Learning to Generate Factually Correct Articles for Queries by
Grounding on Large Web Corpus [61.209202634703104]
我々は,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを導入する。
最終的なゴールは、ウィキペディアに見当たらない事実検索のための、流動的で情報豊かで、事実的に正しい短い記事を作ることである。
我々は、英語のウィキペディア記事とそのクロール可能なウィキペディア参照を抽出し、大規模なデータセットWebBrain-Rawを構築した。
論文 参考訳(メタデータ) (2023-04-10T02:55:48Z) - GROWN+UP: A Graph Representation Of a Webpage Network Utilizing
Pre-training [0.2538209532048866]
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に微調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入する。
我々は,Webページボイラプレートの除去とジャンル分類という,非常に異なる2つのベンチマークで複数のデータセットを用いて,事前学習したモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-03T13:37:27Z) - TIE: Topological Information Enhanced Structural Reading Comprehension
on Web Pages [31.291568831285442]
トークンレベルタスクをタグレベルタスクに変換するためのトポロジカル情報拡張モデル(TIE)を提案する。
TIEは、その情報を活用するために、グラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合している。
実験により,本モデルが強いベースラインを上回り,論理構造と空間構造の両方を達成することを示す。
論文 参考訳(メタデータ) (2022-05-13T03:21:09Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。