論文の概要: The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models
- arxiv url: http://arxiv.org/abs/2111.02168v4
- Date: Fri, 23 Feb 2024 19:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 01:22:17.385648
- Title: The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models
- Title(参考訳): klarna製品ページデータセット: グラフニューラルネットワークと大規模言語モデルによるweb要素のノミネート
- Authors: Alexandra Hotti, Riccardo Sven Risuleo, Stefan Magureanu, Aref Moradi,
Jens Lagergren
- Abstract要約: 私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
- 参考スコア(独自算出の注目度): 51.39011092347136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Web automation holds the potential to revolutionize how users interact with
the digital world, offering unparalleled assistance and simplifying tasks via
sophisticated computational methods. Central to this evolution is the web
element nomination task, which entails identifying unique elements on webpages.
Unfortunately, the development of algorithmic designs for web automation is
hampered by the scarcity of comprehensive and realistic datasets that reflect
the complexity faced by real-world applications on the Web. To address this, we
introduce the Klarna Product Page Dataset, a comprehensive and diverse
collection of webpages that surpasses existing datasets in richness and
variety. The dataset features 51,701 manually labeled product pages from 8,175
e-commerce websites across eight geographic regions, accompanied by a dataset
of rendered page screenshots. To initiate research on the Klarna Product Page
Dataset, we empirically benchmark a range of Graph Neural Networks (GNNs) on
the web element nomination task. We make three important contributions. First,
we found that a simple Convolutional GNN (GCN) outperforms complex
state-of-the-art nomination methods. Second, we introduce a training refinement
procedure that involves identifying a small number of relevant elements from
each page using the aforementioned GCN. These elements are then passed to a
large language model for the final nomination. This procedure significantly
improves the nomination accuracy by 16.8 percentage points on our challenging
dataset, without any need for fine-tuning. Finally, in response to another
prevalent challenge in this field - the abundance of training methodologies
suitable for element nomination - we introduce the Challenge Nomination
Training Procedure, a novel training approach that further boosts nomination
accuracy.
- Abstract(参考訳): Webオートメーションは、ユーザがデジタル世界と対話する方法に革命をもたらす可能性を秘めている。
この進化の中心は、Webページ上のユニークな要素を識別するWeb要素指名タスクである。
残念ながら、Web自動化のためのアルゴリズム設計の開発は、Web上の現実世界のアプリケーションによって直面する複雑さを反映した、包括的で現実的なデータセットの不足によって妨げられている。
そこで我々は,klarna製品ページデータセット(klarna product page dataset)を紹介する。
データセットには、8つの地域にわたる8,175のeコマースウェブサイトから51,701の手動ラベル付き製品ページと、レンダリングされたページのスクリーンショットのデータセットが含まれている。
Klarna Product Page Datasetの研究を開始するために、Web要素の指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
我々は3つの重要な貢献をした。
まず、単純な畳み込みGNN(GCN)が、複雑な最先端の指名手法より優れていることを発見した。
第2に,前述したgcnを用いて,各ページから少数の関連要素を識別するトレーニングリファインメント手順を提案する。
これらの要素は最終候補のために大きな言語モデルに渡される。
この手順は、微調整を必要とせずに、挑戦的なデータセットの16.8ポイントの精度を著しく向上させる。
最後に、この分野における別の一般的な課題である、要素指名に適したトレーニング方法論の豊富さへの対応として、さらにノミネート精度を高める新しいトレーニング手法であるチャレンジノミネートトレーニング手順を紹介する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud
Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。
私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2023-09-20T09:29:44Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - GROWN+UP: A Graph Representation Of a Webpage Network Utilizing
Pre-training [0.2538209532048866]
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に微調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入する。
我々は,Webページボイラプレートの除去とジャンル分類という,非常に異なる2つのベンチマークで複数のデータセットを用いて,事前学習したモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-03T13:37:27Z) - Incremental Learning Meets Transfer Learning: Application to Multi-site
Prostate MRI Segmentation [16.50535949349874]
インクリメンタルトランスファー学習(ITL)と呼ばれる新しいマルチサイトセグメンテーションフレームワークを提案する。
ITLは、エンドツーエンドのシーケンシャルな方法で、マルチサイトデータセットからモデルを学習する。
ITLトレーニングスキームを活用することで、漸進的な学習における破滅的な問題を軽減できることを示す。
論文 参考訳(メタデータ) (2022-06-03T02:32:01Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Meta Propagation Networks for Graph Few-shot Semi-supervised Learning [39.96930762034581]
本稿では,この問題を解決するために,メタ学習アルゴリズムを用いた新しいネットワークアーキテクチャを提案する。
基本的に,我々のMeta-PNフレームワークは,メタ学習ラベルの伝搬戦略を用いて,未ラベルノード上の高品質な擬似ラベルを推論する。
我々のアプローチは、様々なベンチマークデータセットの既存の技術と比較して、容易で実質的なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2021-12-18T00:11:56Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。