論文の概要: Web Page Content Extraction Based on Multi-feature Fusion
- arxiv url: http://arxiv.org/abs/2203.12591v1
- Date: Mon, 21 Mar 2022 04:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 16:34:59.320757
- Title: Web Page Content Extraction Based on Multi-feature Fusion
- Title(参考訳): 多機能融合に基づくWebページコンテンツ抽出
- Authors: Bowen Yu, Junping Du, Yingxia Shao
- Abstract要約: 本稿では,多機能融合に基づくWebページテキスト抽出アルゴリズムを提案する。
DOMノードの複数の機能を入力として取り、ノードにテキスト情報が含まれているかどうかを予測し、より多くのタイプのページに適応する。
実験の結果,本手法はWebページテキスト抽出能力に優れており,手作業による閾値決定の問題を回避することができることがわかった。
- 参考スコア(独自算出の注目度): 20.214440785390984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of Internet technology, people have more and more
access to a variety of web page resources. At the same time, the current rapid
development of deep learning technology is often inseparable from the huge
amount of Web data resources. On the other hand, NLP is also an important part
of data processing technology, such as web page data extraction. At present,
the extraction technology of web page text mainly uses a single heuristic
function or strategy, and most of them need to determine the threshold
manually. With the rapid growth of the number and types of web resources, there
are still problems to be solved when using a single strategy to extract the
text information of different pages. This paper proposes a web page text
extraction algorithm based on multi-feature fusion. According to the text
information characteristics of web resources, DOM nodes are used as the
extraction unit to design multiple statistical features, and high-order
features are designed according to heuristic strategies. This method
establishes a small neural network, takes multiple features of DOM nodes as
input, predicts whether the nodes contain text information, makes full use of
different statistical information and extraction strategies, and adapts to more
types of pages. Experimental results show that this method has a good ability
of web page text extraction and avoids the problem of manually determining the
threshold.
- Abstract(参考訳): インターネット技術の急速な発展に伴い、人々は様々なWebページリソースにアクセスしやすくなっている。
同時に、ディープラーニング技術の現在の急速な開発は、膨大な量のwebデータリソースとは区別がつかないことが多い。
一方で、nlpは、ウェブページデータ抽出のようなデータ処理技術の重要な部分でもある。
現在、webページテキストの抽出技術は主に単一のヒューリスティック機能や戦略を用いており、そのほとんどは手動でしきい値を決定する必要がある。
webリソースの数と種類が急速に増加する中、異なるページのテキスト情報を抽出するために単一の戦略を使用する場合、まだ解決すべき問題が残っている。
本稿では,多機能融合に基づくWebページテキスト抽出アルゴリズムを提案する。
Webリソースのテキスト情報特性によると、複数の統計特徴を設計するための抽出単位としてDOMノードを使用し、ヒューリスティック戦略に従って高次特徴を設計する。
この方法は、小さなニューラルネットワークを確立し、domノードの複数の特徴を入力として、そのノードがテキスト情報を含むかどうかを予測し、異なる統計情報と抽出戦略をフル活用し、より多くの種類のページに対応させる。
実験の結果,本手法はwebページのテキスト抽出に優れた性能を有し,手作業でしきい値を決定する問題を回避できることがわかった。
関連論文リスト
- A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models [0.8899670429041453]
生成型大規模言語モデル(LLM)は,広範囲なデータを必要とすることなく,非常に高品質なNLPタスクを解くことができることを示す。
新たなプロンプト戦略に基づいて,LLMが最先端の機械学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T06:39:35Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path [28.898240725099782]
ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
論文 参考訳(メタデータ) (2023-05-23T08:16:52Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - FreeDOM: A Transferable Neural Architecture for Structured Information
Extraction on Web Documents [16.101638575566444]
FreeDOMは、テキストとマークアップ情報を組み合わせることで、ページの各DOMノードの表現を学習する。
第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。
第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。
論文 参考訳(メタデータ) (2020-10-21T04:20:13Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。