論文の概要: Machine Learning for Coding Retail Product Names to Consumer-Price Categories: A Rule-plus-Bag-of-Words Pipeline with Reliability-Weighted Human-in-the-Loop Labeling
- arxiv url: http://arxiv.org/abs/2606.02004v1
- Date: Mon, 01 Jun 2026 09:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.776251
- Title: Machine Learning for Coding Retail Product Names to Consumer-Price Categories: A Rule-plus-Bag-of-Words Pipeline with Reliability-Weighted Human-in-the-Loop Labeling
- Title(参考訳): 商品名を消費者価格カテゴリにリテール化するための機械学習 - 信頼性に富んだヒューマン・イン・ザ・ループラベリングを備えたルール+バガ・オブ・ワードパイプライン
- Authors: Vladimir Beskorovainyi,
- Abstract要約: 本稿では,一般的な再現可能な手法としてのマッピングについて検討する。
我々は、アノテータが二項有効/再帰の判断を下す、Human-in-the-loopプロトコルを使用する。
モンテカルロのラベリングプロトコルに関する調査では、信頼性に富んだ投票がほぼ多数派を圧倒している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consumer-price measurement increasingly draws on alternative data sources -- scanner, web-scraped, and transaction/receipt data. A recurring obstacle is that product descriptions in such sources are short, noisy, and abbreviated, with no standard product code, so each item must first be mapped to a consumption classification (e.g., the UN COICOP scheme) before prices can be compared. This paper studies that mapping as a general, reproducible method. The pipeline is: (i) text normalization and tokenization of noisy item names; (ii) a prefix-tree (trie) rule-based pre-classifier driven by per-category key-phrases and stop-phrases; and (iii) a per-category binary confirmation model deciding whether an item belongs to a tentatively assigned category. For labels at scale we use a human-in-the-loop protocol in which annotators give a binary valid/reject judgment, aggregated by a dynamically updated reliability weight; the model joins the same rule, enabling continual fine-tuning. Our empirical finding is deflationary: in a controlled, leakage-free study (one category, real positives vs. hard negatives, five seeds), bag-of-words models essentially saturate the task (F1 about 0.99) -- a linear classifier matches a multilayer perceptron, explicit word-order (n-gram) features add nothing, and about 67 labeled examples already suffice. A Monte-Carlo study of the labeling protocol shows the reliability-weighted vote barely beats plain majority (its additive weights saturate) while Dawid-Skene recovers labels markedly better. We also discuss price-level quality control and design lessons for statistical offices considering transaction data. All figures are illustrative; no confidential data, code, or documentation is reproduced.
- Abstract(参考訳): 消費者物価測定は、スキャナー、Webスクラップ、トランザクション/受信データなど、代替データソースに着目する傾向にある。
繰り返し発生する障害は、製品記述が短く、騒々しく、省略され、標準製品コードがないため、価格を比較する前に、各項目を消費分類(例えば、UN COICOPスキーム)にマッピングする必要があることである。
本稿では,一般的な再現可能な手法としてのマッピングについて検討する。
パイプラインは以下のとおりです。
一 騒々しい項目名の文字の正規化及びトークン化
(ii)カテゴリーごとのキーフレーズと停止フレーズによって駆動されるプレフィックスツリー(トリー)ルールに基づく事前分類器
三 アイテムが仮に割り当てられたカテゴリに属するか否かを判定するカテゴリごとのバイナリ確認モデル
ラベルの大規模化には、アノテータが動的に更新された信頼性重みで集約されたバイナリバリデーション/リジェクトの判断を行うヒューマン・イン・ザ・ループプロトコルを使用します。
制御されたリークのない研究(一カテゴリ、実陰性対強陰性対5シード)では、バッグ・オブ・ワードのモデルは基本的にタスクを飽和させる(F1約0.99) -- 線形分類器は多層パーセプトロンと一致し、明示的な単語順序(n-gram)機能は無意味であり、すでに67のラベル付き例が十分である。
モンテカルロのラベリング・プロトコルに関する調査では、信頼性に富んだ票がほとんど過半数を上回り(加重が飽和する)、一方ダウィド・スケインはラベリングを著しく改善している。
また、取引データを考慮した統計事務所の価格レベルの品質管理と設計指導についても論じる。
秘密データ、コード、ドキュメントは再生されない。
関連論文リスト
- Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Consistent Text Categorization using Data Augmentation in e-Commerce [1.558017967663767]
一貫性のあるテキスト分類のための新しいフレームワークを提案する。
私たちの目標は、本番レベルのパフォーマンスを維持しながら、モデルの一貫性を改善することです。
論文 参考訳(メタデータ) (2023-05-09T12:47:28Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。