論文の概要: Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data
- arxiv url: http://arxiv.org/abs/2302.12139v1
- Date: Thu, 23 Feb 2023 16:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 14:30:30.788072
- Title: Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data
- Title(参考訳): 非構造化多言語webデータからの細粒度製品情報の自動抽出
- Authors: Alexander Flick and Sebastian J\"ager and Ivana Trajanovska and Felix
Biessmann
- Abstract要約: 機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。
私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
- 参考スコア(独自算出の注目度): 66.21317300595483
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Extracting structured information from unstructured data is one of the key
challenges in modern information retrieval applications, including e-commerce.
Here, we demonstrate how recent advances in machine learning, combined with a
recently published multilingual data set with standardized fine-grained product
category information, enable robust product attribute extraction in challenging
transfer learning settings. Our models can reliably predict product attributes
across online shops, languages, or both. Furthermore, we show that our models
can be used to match product taxonomies between online retailers.
- Abstract(参考訳): 非構造化データから構造化情報を抽出することは、eコマースを含む現代の情報検索アプリケーションにおける重要な課題の1つである。
本稿では、近年の機械学習の進歩と、標準化された細粒度製品カテゴリ情報を含む多言語データセットを組み合わせることで、移譲学習に挑戦する際の堅牢な製品属性抽出を可能にすることを実証する。
私たちのモデルは、オンラインショップ、言語、あるいはその両方にまたがる製品属性を確実に予測できます。
さらに、当社のモデルはオンライン小売業者間の商品分類に適合することを示す。
関連論文リスト
- A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - Exploiting Knowledge Graphs for Facilitating Product/Service Discovery [1.2691047660244332]
本研究は,データ分類に教師なしアプローチを採用することにより,データWeb上でのeコマースのための費用対効果のソリューションを提案する。
提案アーキテクチャでは,Web言語OWLで利用可能な製品について記述し,それをトリプルストアに格納する。
特定の製品のユーザ入力仕様は、利用可能な製品カテゴリと一致し、知識グラフを生成する。
論文 参考訳(メタデータ) (2020-10-11T10:22:10Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。