論文の概要: LaTeX-Numeric: Language-agnostic Text attribute eXtraction for
E-commerce Numeric Attributes
- arxiv url: http://arxiv.org/abs/2104.09576v1
- Date: Mon, 19 Apr 2021 19:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:36:43.468809
- Title: LaTeX-Numeric: Language-agnostic Text attribute eXtraction for
E-commerce Numeric Attributes
- Title(参考訳): LaTeX-Numeric: eXtraction for E-Commerce Numeric Attributes
- Authors: Kartik Mehta, Ioana Oprea and Nikhil Rasiwasia
- Abstract要約: 製品テキストから電子商取引の数値属性を抽出するための高精度な全自動スケーラブルフレームワークを提案する。
属性データの欠落ラベルを扱うマルチタスクアーキテクチャを提案し,単一タスクアーキテクチャ上の数値属性に対して9.2%のF1改善を実現した。
属性値を用いたエイリアス自動生成アルゴリズムを提案し,20.2%のF1改善を実現した。
- 参考スコア(独自算出の注目度): 0.25782420501870296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present LaTeX-Numeric - a high-precision fully-automated
scalable framework for extracting E-commerce numeric attributes from product
text like product description. Most of the past work on attribute extraction is
not scalable as they rely on manually curated training data, either with or
without the use of active learning. We rely on distant supervision for training
data generation, removing dependency on manual labels. One issue with distant
supervision is that it leads to incomplete training annotation due to missing
attribute values while matching. We propose a multi-task learning architecture
to deal with missing labels in the training data, leading to F1 improvement of
9.2% for numeric attributes over single-task architecture. While multi-task
architecture benefits both numeric and non-numeric attributes, we present
automated techniques to further improve the numeric attributes extraction
models. Numeric attributes require a list of units (or aliases) for better
matching with distant supervision. We propose an automated algorithm for alias
creation using product text and attribute values, leading to a 20.2% F1
improvement. Extensive experiments on real world dataset for 20 numeric
attributes across 5 product categories and 3 English marketplaces show that
LaTeX-Numeric achieves a high F1-score, without any manual intervention, making
it suitable for practical applications. Finally, we show that the improvements
are language-agnostic and LaTeX-Numeric achieves 13.9% F1 improvement for 3
Romance languages.
- Abstract(参考訳): 本稿では,製品記述などの製品テキストから電子商取引数値属性を抽出するための高精度完全自動スケーラブルフレームワークであるlatex-numericを提案する。
属性抽出に関する過去の作業のほとんどは、アクティブラーニングの使用の有無に関わらず、手動でキュレートされたトレーニングデータに依存しているため、スケーラブルではない。
手動ラベルへの依存性を取り除き、データ生成をトレーニングするために、遠方からの監督に依存しています。
遠隔監視の1つの問題は、マッチング中に属性値の欠如による不完全なトレーニングアノテーションにつながることである。
本稿では,学習データのラベル欠落に対処するマルチタスク学習アーキテクチャを提案する。f1では,シングルタスクアーキテクチャよりも数値属性が9.2%向上した。
マルチタスクアーキテクチャは数値属性と非数値属性の両方にメリットがあるが,数値属性抽出モデルをさらに改善するための自動化手法を提案する。
数値属性は、遠くの監督とよりよく一致するためにユニット(またはエイリアス)のリストを必要とする。
本稿では,製品テキストと属性値を用いたエイリアス自動生成アルゴリズムを提案する。
5つの製品カテゴリと3つの英語マーケットプレースにまたがる20の数値属性に関する実世界のデータセットに関する大規模な実験は、LaTeX-Numericが手動で介入することなく高いF1スコアを達成したことを示している。
最後に、言語に依存しないLaTeX-Numericが3つのロマンス言語で13.9%のF1改善を実現していることを示す。
関連論文リスト
- AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。
具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。
提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts [13.789739307267952]
本稿では,高品質な数学的テキストを自動的にキュレートする自動データ選択(AutoDS)を提案する。
人間のアノテーションや専用のデータフィルタのトレーニングを必要とする従来のアプローチとは異なり、AutoDSはモデルのロジットのみに依存する。
我々は、自動ドメイン固有データキュレーションの今後の研究を容易にするために、キュレートされたAutoMathTextデータセットをリリースする。
論文 参考訳(メタデータ) (2024-02-12T13:09:21Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - Large Scale Generative Multimodal Attribute Extraction for E-commerce
Attributes [23.105116746332506]
eコマースのウェブサイト(Amazonなど)には、製品ページには構造化され、構造化されていない情報(テキストと画像)が多数存在している。
販売業者は、商品の属性(色、サイズなど)のラベルやラベルを間違えたりしないことが多い。
3つのキーコンポーネントからなる textbfMXT を用いて,この問題に対するスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:21:45Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First --
Using Relation Extraction to Identify Entities [0.0]
本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。
実体抽出と関係抽出を連続的に行う既存手法とは対照的に,本システムは関係抽出からの情報を実体抽出に組み込む。
論文 参考訳(メタデータ) (2022-03-10T12:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。