論文の概要: Layout-aware Webpage Quality Assessment
- arxiv url: http://arxiv.org/abs/2301.12152v1
- Date: Sat, 28 Jan 2023 10:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:48:10.700370
- Title: Layout-aware Webpage Quality Assessment
- Title(参考訳): レイアウト対応Webページの品質評価
- Authors: Anfeng Cheng, Yiding Liu, Weibin Li, Qian Dong, Shuaiqiang Wang,
Zhengjie Huang, Shikun Feng, Zhicong Cheng and Dawei Yin
- Abstract要約: 本稿では,現在サーチエンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
我々は、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述するメタデータをモデルの入力として使用します。
複雑なDOMツリーデータからWebページの品質を評価するために,グラフニューラルネットワーク(GNN)に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 31.537331183733837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identifying high-quality webpages is fundamental for real-world search
engines, which can fulfil users' information need with the less cognitive
burden. Early studies of \emph{webpage quality assessment} usually design
hand-crafted features that may only work on particular categories of webpages
(e.g., shopping websites, medical websites). They can hardly be applied to
real-world search engines that serve trillions of webpages with various types
and purposes. In this paper, we propose a novel layout-aware webpage quality
assessment model currently deployed in our search engine. Intuitively, layout
is a universal and critical dimension for the quality assessment of different
categories of webpages. Based on this, we directly employ the meta-data that
describes a webpage, i.e., Document Object Model (DOM) tree, as the input of
our model. The DOM tree data unifies the representation of webpages with
different categories and purposes and indicates the layout of webpages. To
assess webpage quality from complex DOM tree data, we propose a graph neural
network (GNN) based method that extracts rich layout-aware information that
implies webpage quality in an end-to-end manner. Moreover, we improve the GNN
method with an attentive readout function, external web categories and a
category-aware sampling method. We conduct rigorous offline and online
experiments to show that our proposed solution is effective in real search
engines, improving the overall usability and user experience.
- Abstract(参考訳): 高品質なWebページの特定は,ユーザの認知的負担を軽減し,ユーザのニーズを満たす現実世界の検索エンジンの基本となる。
emph{webpage quality assessment}の初期の研究は、通常、特定のwebページ(例えば、ショッピングウェブサイト、医療ウェブサイト)のカテゴリのみで動作する手作りの機能を設計する。
さまざまなタイプのウェブページを提供する現実世界の検索エンジンにはほとんど適用できない。
本稿では,現在検索エンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
直感的には、レイアウトは異なるカテゴリのウェブページの品質評価のための普遍的で重要な次元である。
これに基づいて、私たちは、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述したメタデータを直接モデル入力として使用します。
domツリーデータは、異なるカテゴリと目的のウェブページの表現を統一し、ウェブページのレイアウトを示す。
複雑なDOMツリーデータからWebページの品質を評価するために,エンド・ツー・エンドでWebページの品質を示すリッチなレイアウト認識情報を抽出するグラフニューラルネットワーク(GNN)を提案する。
さらに,注意読み出し機能,外部webカテゴリ,カテゴリ対応サンプリング手法を用いてgnn法を改善した。
提案手法が実際の検索エンジンに有効であることを示すために,厳密なオフラインおよびオンライン実験を実施し,全体のユーザビリティとユーザエクスペリエンスを向上させる。
関連論文リスト
- IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web [61.96082780724042]
我々は、画像と対応するWebコード(IW-Bench)のベンチマークをキュレートし、調整した。
本稿では、文書オブジェクトモデル(DOM)ツリーを解析することにより、要素の完全性をテストする要素精度を提案する。
また、性能向上のために5ホップのマルチモーダル・チェーン・オブ・ソート・プロンプティングも設計しています。
論文 参考訳(メタデータ) (2024-09-14T05:38:26Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - Learning Context-Aware Representations of Subtrees [0.0]
この論文は、Webページや要素分類への自然な応用による複雑で構造化されたデータの効率的な表現を学習する問題に取り組む。
ウェブページ内の要素を取り巻くコンテキストは問題に対して高い価値があり、現在悪用されていると仮定する。
この論文は、Web要素をDOMツリーのサブツリーとして分類するという問題を解決することを目的としている。
論文 参考訳(メタデータ) (2021-11-08T07:43:14Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Boilerplate Removal using a Neural Sequence Labeling Model [4.056234173482691]
本稿では,手作り機能に頼らず,Webページに現れるHTMLタグや単語のみを入力として利用するニューラルシーケンスラベリングモデルを提案する。
これにより、モデルを使用して、任意のWebページのコンテンツをブラウザ内で直接ハイライトするブラウザ拡張を提示できる。
論文 参考訳(メタデータ) (2020-04-22T08:06:59Z) - GIANT: Scalable Creation of a Web-scale Ontology [29.628181324907295]
既存の知識基盤やカテゴリーは、オンライン人口の言語スタイルにおける概念、出来事、トピックを適切に把握できないと論じる。
本稿では,ユーザ中心,Webスケール,構造化オントロジーの構築機構について述べる。
本稿では,GIANTで使用されるグラフニューラルネットワーク技術について述べるとともに,提案手法を各種ベースラインと比較して評価する。
論文 参考訳(メタデータ) (2020-04-05T07:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。