論文の概要: The Klarna Product Page Dataset: A RealisticBenchmark for Web
Representation Learning
- arxiv url: http://arxiv.org/abs/2111.02168v1
- Date: Wed, 3 Nov 2021 12:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:48:40.596148
- Title: The Klarna Product Page Dataset: A RealisticBenchmark for Web
Representation Learning
- Title(参考訳): Klarna Product Page Dataset: Web表現学習のためのリアルなベンチマーク
- Authors: Alexandra Hotti, Riccardo Sven Risuleo, Stefan Magureanu, Aref Moradi,
Jens Lagergren
- Abstract要約: 本稿では,DOM木要素表現学習の未探索問題に対処する。
一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。
ウェブページの大規模かつ現実的なデータセットを提示する。
- 参考スコア(独自算出の注目度): 60.48174655983521
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper tackles the under-explored problem of DOM tree element
representation learning. We advance the field of machine learning-based web
automation and hope to spur further research regarding this crucial area with
two contributions. First, we adapt several popular Graph-based Neural Network
models and apply them to embed elements in website DOM trees. Second, we
present a large-scale and realistic dataset of webpages. By providing this
open-access resource, we lower the entry barrier to this area of research. The
dataset contains $51,701$ manually labeled product pages from $8,175$ real
e-commerce websites. The pages can be rendered entirely in a web browser and
are suitable for computer vision applications. This makes it substantially
richer and more diverse than other datasets proposed for element representation
learning, classification and prediction on the web. Finally, using our proposed
dataset, we show that the embeddings produced by a Graph Convolutional Neural
Network outperform representations produced by other state-of-the-art methods
in a web element prediction task.
- Abstract(参考訳): 本稿ではDOM木要素表現学習の未探索問題に取り組む。
機械学習ベースのWebオートメーションの分野を前進させ、この重要な領域に関するさらなる研究を2つのコントリビューションで促進したいと考えています。
まず、人気のあるグラフベースのニューラルネットワークモデルを適用し、それらをWebサイトDOMツリーに埋め込みます。
次に,大規模かつ現実的なWebページデータセットを提案する。
このオープンアクセスリソースを提供することで、この分野の研究への参入障壁を低くする。
データセットには、実際のEコマースウェブサイトから手動でラベル付けされた製品ページが51,701ドル含まれている。
ページは完全にウェブブラウザでレンダリングでき、コンピュータビジョンアプリケーションに適している。
これにより、web上の要素表現学習、分類、予測のために提案された他のデータセットよりも、実質的にリッチで多様である。
最後に、提案したデータセットを用いて、グラフ畳み込みニューラルネットワークによって生成された埋め込みが、Web要素予測タスクにおいて、他の最先端手法によって生成された表現より優れていることを示す。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud
Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。
私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2023-09-20T09:29:44Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - GROWN+UP: A Graph Representation Of a Webpage Network Utilizing
Pre-training [0.2538209532048866]
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に微調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入する。
我々は,Webページボイラプレートの除去とジャンル分類という,非常に異なる2つのベンチマークで複数のデータセットを用いて,事前学習したモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-03T13:37:27Z) - Incremental Learning Meets Transfer Learning: Application to Multi-site
Prostate MRI Segmentation [16.50535949349874]
インクリメンタルトランスファー学習(ITL)と呼ばれる新しいマルチサイトセグメンテーションフレームワークを提案する。
ITLは、エンドツーエンドのシーケンシャルな方法で、マルチサイトデータセットからモデルを学習する。
ITLトレーニングスキームを活用することで、漸進的な学習における破滅的な問題を軽減できることを示す。
論文 参考訳(メタデータ) (2022-06-03T02:32:01Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Meta Propagation Networks for Graph Few-shot Semi-supervised Learning [39.96930762034581]
本稿では,この問題を解決するために,メタ学習アルゴリズムを用いた新しいネットワークアーキテクチャを提案する。
基本的に,我々のMeta-PNフレームワークは,メタ学習ラベルの伝搬戦略を用いて,未ラベルノード上の高品質な擬似ラベルを推論する。
我々のアプローチは、様々なベンチマークデータセットの既存の技術と比較して、容易で実質的なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2021-12-18T00:11:56Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。