論文の概要: Markup Language Modeling for Web Document Understanding
- arxiv url: http://arxiv.org/abs/2509.20940v1
- Date: Thu, 25 Sep 2025 09:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.819125
- Title: Markup Language Modeling for Web Document Understanding
- Title(参考訳): Web文書理解のためのマークアップ言語モデリング
- Authors: Su Liu, Bin Bi, Jan Bakus, Paritosh Kumar Velalam, Vijay Yella, Vinod Hegde,
- Abstract要約: 本研究は,ショッピングレビューサイトから詳細な情報を抽出することで,最新の製品データベースを構築することの課題を考察する。
異なるサイズのレビューサイトから収集した製品データに基づいてMarkupLMを微調整し、MarkupLM++と呼ばれる変種を開発しました。
最終モデルは0.906、リコールは0.724、F1スコアは0.805に達した。
- 参考スコア(独自算出の注目度): 5.207876692210154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web information extraction (WIE) is an important part of many e-commerce systems, supporting tasks like customer analysis and product recommendation. In this work, we look at the problem of building up-to-date product databases by extracting detailed information from shopping review websites. We fine-tuned MarkupLM on product data gathered from review sites of different sizes and then developed a variant we call MarkupLM++, which extends predictions to internal nodes of the DOM tree. Our experiments show that using larger and more diverse training sets improves extraction accuracy overall. We also find that including internal nodes helps with some product attributes, although it leads to a slight drop in overall performance. The final model reached a precision of 0.906, recall of 0.724, and an F1 score of 0.805.
- Abstract(参考訳): Web情報抽出(WIE)は多くのEコマースシステムにおいて重要な部分であり、顧客分析や製品レコメンデーションといったタスクをサポートする。
本稿では,ショッピングレビューサイトから詳細な情報を抽出することで,最新の製品データベースを構築するという課題について考察する。
異なるサイズのレビューサイトから収集した製品データに基づいてMarkupLMを微調整し、MarkupLM++と呼ばれる変種を開発しました。
実験により,より多種多様なトレーニングセットを用いることで,全体の抽出精度が向上することが示された。
また、内部ノードを含めることで、いくつかの製品属性が役立ちますが、全体的なパフォーマンスはわずかに低下します。
最終モデルは0.906、リコールは0.724、F1スコアは0.805に達した。
関連論文リスト
- eC-Tab2Text: Aspect-Based Text Generation from e-Commerce Product Tables [6.384763560610077]
我々はeコマースの複雑さを捉えるために設計された新しいデータセットeC-Tab2Textを紹介する。
製品表からテキストを生成することに注力し、LCMが高品質で属性固有の製品レビューを作成できるようにする。
その結果,文脈的に正確なレビューを生成する上で,大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-02-20T18:41:48Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Can GitHub Issues Help in App Review Classifications? [0.7366405857677226]
GitHubイシューから抽出した情報を活用することでラベル付きデータセットの拡張を支援する新しいアプローチを提案する。
以上の結果から,データ拡張にラベル付き問題を用いることで,F1スコアが6.3,機能要求が7.2に向上することが示された。
論文 参考訳(メタデータ) (2023-08-27T22:01:24Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - GUIM -- General User and Item Embedding with Mixture of Representation
in E-commerce [13.142842265419262]
私たちのゴールは、Alibabaのビジネス全体で、各ユーザと各製品アイテムに対して、汎用的な表現(埋め込み)を構築することです。
自然言語処理(NLP)領域におけるBERTモデルに着想を得て,GUIM(General User Item embedding with Mixture of representation)モデルを提案する。
表現の混合(MoR)を新しい表現形式として利用し、各ユーザの多様な興味をモデル化する。
論文 参考訳(メタデータ) (2022-07-02T06:27:54Z) - PLAtE: A Large-scale Dataset for List Page Web Extraction [19.92099953576541]
PLAtEは6,694ページと156,014属性から収集された52,898項目で構成されており、これが最初の大規模リストページWeb抽出データセットである。
我々は、データセットの収集と注釈付けに多段階のアプローチを用い、3つの最先端Web抽出モデルを2つのタスクに適用し、その強みと弱さを定量的かつ質的に比較する。
論文 参考訳(メタデータ) (2022-05-24T22:26:58Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - Simplified DOM Trees for Transferable Attribute Extraction from the Web [15.728164692696689]
Webページを考えると、構造化されたオブジェクトと関心のあるさまざまな属性の抽出は、さまざまな下流アプリケーションを容易にします。
既存のアプローチは、DOMツリーノードのタグ付けタスクとして問題を定式化する。
本稿では,各ノードの有用なコンテキストを効率的に取得することで,この問題に取り組むための新しい転送可能な手法であるSimpDOMを提案する。
論文 参考訳(メタデータ) (2021-01-07T07:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。