Fugu-MT 論文翻訳(概要): Cross-Domain Web Information Extraction at Pinterest

論文の概要: Cross-Domain Web Information Extraction at Pinterest

arxiv url: http://arxiv.org/abs/2508.01096v1
Date: Fri, 01 Aug 2025 22:22:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 20:32:48.692662
Title: Cross-Domain Web Information Extraction at Pinterest
Title（参考訳）: PinterestのクロスドメインWeb情報抽出
Authors: Michael Farag, Patrick Halina, Andrey Zaytsev, Alekhya Munagala, Imtihan Ahmed, Junhao Wang,
Abstract要約: 本稿では,Pinterestの属性抽出システムについて述べる。これにより、eXtreme Gradient Boosting(XGBoost)のような単純なモデルが、より複雑なLarge Language Model(LLM)よりも正確に属性を抽出できることを示す。提案手法は,高速で,毎秒1,000URL以上を処理できるシステムであると同時に,最も安価なGPT代替品の1000倍の費用対効果があることを示す。
参考スコア（独自算出の注目度）: 1.7702475609045947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The internet offers a massive repository of unstructured information, but it's a significant challenge to convert this into a structured format. At Pinterest, the ability to accurately extract structured product data from e-commerce websites is essential to enhance user experiences and improve content distribution. In this paper, we present Pinterest's system for attribute extraction, which achieves remarkable accuracy and scalability at a manageable cost. Our approach leverages a novel webpage representation that combines structural, visual, and text modalities into a compact form, optimizing it for small model learning. This representation captures each visible HTML node with its text, style and layout information. We show how this allows simple models such as eXtreme Gradient Boosting (XGBoost) to extract attributes more accurately than much more complex Large Language Models (LLMs) such as Generative Pre-trained Transformer (GPT). Our results demonstrate a system that is highly scalable, processing over 1,000 URLs per second, while being 1000 times more cost-effective than the cheapest GPT alternatives.
Abstract（参考訳）: インターネットは構造化されていない情報の巨大なリポジトリを提供していますが、これを構造化形式に変換することは大きな課題です。 Pinterestでは、EコマースWebサイトから構造化された製品データを正確に抽出する能力は、ユーザエクスペリエンスの向上とコンテンツ配布の改善に不可欠である。本稿では,Pinterestの属性抽出システムについて述べる。我々のアプローチは、構造、視覚、テキストのモダリティをコンパクトな形式に結合した新しいWebページ表現を活用し、それを小さなモデル学習に最適化する。この表現は、各可視なHTMLノードをテキスト、スタイル、レイアウト情報でキャプチャする。これにより、eXtreme Gradient Boosting (XGBoost)のような単純なモデルが、ジェネレーティブプレトレーニングトランスフォーマー(GPT)のようなより複雑なLarge Language Model(LLM)よりも正確に属性を抽出できることを示す。提案手法は,高速で,毎秒1,000URL以上を処理できるシステムであると同時に,最も安価なGPT代替品の1000倍の費用対効果があることを示す。

関連論文リスト

ScrapeGraphAI-100k: A Large-Scale Dataset for LLM-Based Web Information Extraction [0.0]
実世界のLLM抽出イベントの大規模データセットであるScrapeGraphAI-100kを紹介する。 9Mイベントから始まり、スキーマで重複してバランスを取り、さまざまなドメインにまたがる93,695のサンプルを生成します。データセットの構造的多様性とその障害モードを,スキーマの複雑性として特徴付ける。
論文参考訳（メタデータ） (2026-02-16T20:56:59Z)
SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning [48.376164461507244]
本稿では,SCRIBES (SCRIpt-Based Semi-Structured Content extract at Web-Scale) を紹介する。各ページを個別に処理するのではなく、SCRIBESは構造的に類似したWebページのグループに適用可能な再利用可能な抽出スクリプトを生成する。実験の結果,本手法はスクリプト品質が13%以上向上し,GPT-4oでは4%以上向上することがわかった。
論文参考訳（メタデータ） (2025-10-02T09:27:15Z)
(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文参考訳（メタデータ） (2024-07-24T16:47:45Z)
Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文参考訳（メタデータ） (2024-03-04T03:21:40Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
Large Scale Generative Multimodal Attribute Extraction for E-commerce Attributes [23.105116746332506]
eコマースのウェブサイト(Amazonなど)には、製品ページには構造化され、構造化されていない情報(テキストと画像)が多数存在している。販売業者は、商品の属性(色、サイズなど)のラベルやラベルを間違えたりしないことが多い。 3つのキーコンポーネントからなる textbfMXT を用いて,この問題に対するスケーラブルなソリューションを提案する。
論文参考訳（メタデータ） (2023-06-01T06:21:45Z)
WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (2022-02-01T04:44:02Z)
The Klarna Product Page Dataset: Web Element Nomination with Graph Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文参考訳（メタデータ） (2021-11-03T12:13:52Z)
Simplified DOM Trees for Transferable Attribute Extraction from the Web [15.728164692696689]
Webページを考えると、構造化されたオブジェクトと関心のあるさまざまな属性の抽出は、さまざまな下流アプリケーションを容易にします。既存のアプローチは、DOMツリーノードのタグ付けタスクとして問題を定式化する。本稿では,各ノードの有用なコンテキストを効率的に取得することで,この問題に取り組むための新しい転送可能な手法であるSimpDOMを提案する。
論文参考訳（メタデータ） (2021-01-07T07:41:55Z)
ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文参考訳（メタデータ） (2020-05-14T16:15:58Z)
Boilerplate Removal using a Neural Sequence Labeling Model [4.056234173482691]
本稿では,手作り機能に頼らず,Webページに現れるHTMLタグや単語のみを入力として利用するニューラルシーケンスラベリングモデルを提案する。これにより、モデルを使用して、任意のWebページのコンテンツをブラウザ内で直接ハイライトするブラウザ拡張を提示できる。
論文参考訳（メタデータ） (2020-04-22T08:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。