論文の概要: LaTeX-Numeric: Language-agnostic Text attribute eXtraction for
E-commerce Numeric Attributes
- arxiv url: http://arxiv.org/abs/2104.09576v1
- Date: Mon, 19 Apr 2021 19:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:36:43.468809
- Title: LaTeX-Numeric: Language-agnostic Text attribute eXtraction for
E-commerce Numeric Attributes
- Title(参考訳): LaTeX-Numeric: eXtraction for E-Commerce Numeric Attributes
- Authors: Kartik Mehta, Ioana Oprea and Nikhil Rasiwasia
- Abstract要約: 製品テキストから電子商取引の数値属性を抽出するための高精度な全自動スケーラブルフレームワークを提案する。
属性データの欠落ラベルを扱うマルチタスクアーキテクチャを提案し,単一タスクアーキテクチャ上の数値属性に対して9.2%のF1改善を実現した。
属性値を用いたエイリアス自動生成アルゴリズムを提案し,20.2%のF1改善を実現した。
- 参考スコア(独自算出の注目度): 0.25782420501870296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present LaTeX-Numeric - a high-precision fully-automated
scalable framework for extracting E-commerce numeric attributes from product
text like product description. Most of the past work on attribute extraction is
not scalable as they rely on manually curated training data, either with or
without the use of active learning. We rely on distant supervision for training
data generation, removing dependency on manual labels. One issue with distant
supervision is that it leads to incomplete training annotation due to missing
attribute values while matching. We propose a multi-task learning architecture
to deal with missing labels in the training data, leading to F1 improvement of
9.2% for numeric attributes over single-task architecture. While multi-task
architecture benefits both numeric and non-numeric attributes, we present
automated techniques to further improve the numeric attributes extraction
models. Numeric attributes require a list of units (or aliases) for better
matching with distant supervision. We propose an automated algorithm for alias
creation using product text and attribute values, leading to a 20.2% F1
improvement. Extensive experiments on real world dataset for 20 numeric
attributes across 5 product categories and 3 English marketplaces show that
LaTeX-Numeric achieves a high F1-score, without any manual intervention, making
it suitable for practical applications. Finally, we show that the improvements
are language-agnostic and LaTeX-Numeric achieves 13.9% F1 improvement for 3
Romance languages.
- Abstract(参考訳): 本稿では,製品記述などの製品テキストから電子商取引数値属性を抽出するための高精度完全自動スケーラブルフレームワークであるlatex-numericを提案する。
属性抽出に関する過去の作業のほとんどは、アクティブラーニングの使用の有無に関わらず、手動でキュレートされたトレーニングデータに依存しているため、スケーラブルではない。
手動ラベルへの依存性を取り除き、データ生成をトレーニングするために、遠方からの監督に依存しています。
遠隔監視の1つの問題は、マッチング中に属性値の欠如による不完全なトレーニングアノテーションにつながることである。
本稿では,学習データのラベル欠落に対処するマルチタスク学習アーキテクチャを提案する。f1では,シングルタスクアーキテクチャよりも数値属性が9.2%向上した。
マルチタスクアーキテクチャは数値属性と非数値属性の両方にメリットがあるが,数値属性抽出モデルをさらに改善するための自動化手法を提案する。
数値属性は、遠くの監督とよりよく一致するためにユニット(またはエイリアス)のリストを必要とする。
本稿では,製品テキストと属性値を用いたエイリアス自動生成アルゴリズムを提案する。
5つの製品カテゴリと3つの英語マーケットプレースにまたがる20の数値属性に関する実世界のデータセットに関する大規模な実験は、LaTeX-Numericが手動で介入することなく高いF1スコアを達成したことを示している。
最後に、言語に依存しないLaTeX-Numericが3つのロマンス言語で13.9%のF1改善を実現していることを示す。
関連論文リスト
- MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - Product Attribute Value Extraction using Large Language Models [56.96665345570965]
事前学習言語モデル(PLM)に基づく最先端属性/値抽出手法は2つの欠点に直面している。
我々は,大規模言語モデル(LLM)を,既存の属性/値抽出法に代わる,より訓練的なデータ効率,より堅牢な代替手段として活用する可能性を探る。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - Towards Unified Text-based Person Retrieval: A Large-scale
Multi-Attribute and Language Search Benchmark [24.366997699462075]
我々は,MALSと呼ばれるテキストに基づく人物検索のための多属性・言語検索データセットを大規模に導入した。
プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。
生成したデータから学習する可能性を検証するために,新たに属性プロンプト学習とテキストマッチング学習フレームワークを開発する。
論文 参考訳(メタデータ) (2023-06-05T14:06:24Z) - Large Scale Generative Multimodal Attribute Extraction for E-commerce
Attributes [23.105116746332506]
eコマースのウェブサイト(Amazonなど)には、製品ページには構造化され、構造化されていない情報(テキストと画像)が多数存在している。
販売業者は、商品の属性(色、サイズなど)のラベルやラベルを間違えたりしないことが多い。
3つのキーコンポーネントからなる textbfMXT を用いて,この問題に対するスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:21:45Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。
本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文 参考訳(メタデータ) (2022-04-29T04:16:04Z) - AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First --
Using Relation Extraction to Identify Entities [0.0]
本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。
実体抽出と関係抽出を連続的に行う既存手法とは対照的に,本システムは関係抽出からの情報を実体抽出に組み込む。
論文 参考訳(メタデータ) (2022-03-10T12:19:44Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。