Fugu-MT 論文翻訳(概要): LaTeX-Numeric: Language-agnostic Text attribute eXtraction for E-commerce Numeric Attributes

論文の概要: LaTeX-Numeric: Language-agnostic Text attribute eXtraction for E-commerce Numeric Attributes

arxiv url: http://arxiv.org/abs/2104.09576v1
Date: Mon, 19 Apr 2021 19:14:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-21 13:36:43.468809
Title: LaTeX-Numeric: Language-agnostic Text attribute eXtraction for E-commerce Numeric Attributes
Title（参考訳）: LaTeX-Numeric: eXtraction for E-Commerce Numeric Attributes
Authors: Kartik Mehta, Ioana Oprea and Nikhil Rasiwasia
Abstract要約: 製品テキストから電子商取引の数値属性を抽出するための高精度な全自動スケーラブルフレームワークを提案する。属性データの欠落ラベルを扱うマルチタスクアーキテクチャを提案し,単一タスクアーキテクチャ上の数値属性に対して9.2%のF1改善を実現した。属性値を用いたエイリアス自動生成アルゴリズムを提案し,20.2%のF1改善を実現した。
参考スコア（独自算出の注目度）: 0.25782420501870296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present LaTeX-Numeric - a high-precision fully-automated scalable framework for extracting E-commerce numeric attributes from product text like product description. Most of the past work on attribute extraction is not scalable as they rely on manually curated training data, either with or without the use of active learning. We rely on distant supervision for training data generation, removing dependency on manual labels. One issue with distant supervision is that it leads to incomplete training annotation due to missing attribute values while matching. We propose a multi-task learning architecture to deal with missing labels in the training data, leading to F1 improvement of 9.2% for numeric attributes over single-task architecture. While multi-task architecture benefits both numeric and non-numeric attributes, we present automated techniques to further improve the numeric attributes extraction models. Numeric attributes require a list of units (or aliases) for better matching with distant supervision. We propose an automated algorithm for alias creation using product text and attribute values, leading to a 20.2% F1 improvement. Extensive experiments on real world dataset for 20 numeric attributes across 5 product categories and 3 English marketplaces show that LaTeX-Numeric achieves a high F1-score, without any manual intervention, making it suitable for practical applications. Finally, we show that the improvements are language-agnostic and LaTeX-Numeric achieves 13.9% F1 improvement for 3 Romance languages.
Abstract（参考訳）: 本稿では,製品記述などの製品テキストから電子商取引数値属性を抽出するための高精度完全自動スケーラブルフレームワークであるlatex-numericを提案する。属性抽出に関する過去の作業のほとんどは、アクティブラーニングの使用の有無に関わらず、手動でキュレートされたトレーニングデータに依存しているため、スケーラブルではない。手動ラベルへの依存性を取り除き、データ生成をトレーニングするために、遠方からの監督に依存しています。遠隔監視の1つの問題は、マッチング中に属性値の欠如による不完全なトレーニングアノテーションにつながることである。本稿では,学習データのラベル欠落に対処するマルチタスク学習アーキテクチャを提案する。f1では,シングルタスクアーキテクチャよりも数値属性が9.2%向上した。マルチタスクアーキテクチャは数値属性と非数値属性の両方にメリットがあるが,数値属性抽出モデルをさらに改善するための自動化手法を提案する。数値属性は、遠くの監督とよりよく一致するためにユニット(またはエイリアス)のリストを必要とする。本稿では,製品テキストと属性値を用いたエイリアス自動生成アルゴリズムを提案する。 5つの製品カテゴリと3つの英語マーケットプレースにまたがる20の数値属性に関する実世界のデータセットに関する大規模な実験は、LaTeX-Numericが手動で介入することなく高いF1スコアを達成したことを示している。最後に、言語に依存しないLaTeX-Numericが3つのロマンス言語で13.9%のF1改善を実現していることを示す。

関連論文リスト

UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文参考訳（メタデータ） (2025-12-24T10:35:21Z)
$A^2R^2$: Advancing Img2LaTeX Conversion via Visual Reasoning with Attention-Guided Refinement [53.14935624161711]
視覚言語モデル(VLM)は、様々な視覚的理解タスクにおいて顕著な進歩を遂げている。 A2R2$:Advancing Img2La Conversion via Visual Reasoning with Attention-Guided Refinementを提案する。有効評価のために,1,100個の慎重にキュレートされた,挑戦的なサンプルからなる新しいデータセットImg2LaTex-Hard-1Kを導入する。
論文参考訳（メタデータ） (2025-07-28T14:41:57Z)
LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文参考訳（メタデータ） (2025-03-31T04:47:05Z)
AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文参考訳（メタデータ） (2025-02-04T03:39:59Z)
Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文参考訳（メタデータ） (2025-01-02T12:55:27Z)
MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文参考訳（メタデータ） (2024-04-21T14:03:34Z)
Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts [13.789739307267952]
本稿では,高品質な数学的テキストを自動的にキュレートする自動データ選択(AutoDS)を提案する。人間のアノテーションや専用のデータフィルタのトレーニングを必要とする従来のアプローチとは異なり、AutoDSはモデルのロジットのみに依存する。我々は、自動ドメイン固有データキュレーションの今後の研究を容易にするために、キュレートされたAutoMathTextデータセットをリリースする。
論文参考訳（メタデータ） (2024-02-12T13:09:21Z)
NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文参考訳（メタデータ） (2024-01-30T15:18:29Z)
ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。 BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文参考訳（メタデータ） (2023-10-19T07:39:00Z)
Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文参考訳（メタデータ） (2023-06-23T09:30:01Z)
Large Scale Generative Multimodal Attribute Extraction for E-commerce Attributes [23.105116746332506]
eコマースのウェブサイト(Amazonなど)には、製品ページには構造化され、構造化されていない情報(テキストと画像)が多数存在している。販売業者は、商品の属性(色、サイズなど)のラベルやラベルを間違えたりしないことが多い。 3つのキーコンポーネントからなる textbfMXT を用いて,この問題に対するスケーラブルなソリューションを提案する。
論文参考訳（メタデータ） (2023-06-01T06:21:45Z)
Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文参考訳（メタデータ） (2023-05-05T09:58:40Z)
OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文参考訳（メタデータ） (2022-04-29T04:16:04Z)
AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First -- Using Relation Extraction to Identify Entities [0.0]
本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。実体抽出と関係抽出を連続的に行う既存手法とは対照的に,本システムは関係抽出からの情報を実体抽出に組み込む。
論文参考訳（メタデータ） (2022-03-10T12:19:44Z)
Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文参考訳（メタデータ） (2021-10-04T08:51:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。