論文の概要: Scalable Approach for Normalizing E-commerce Text Attributes (SANTA)
- arxiv url: http://arxiv.org/abs/2106.09493v1
- Date: Sat, 12 Jun 2021 08:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 16:14:57.607239
- Title: Scalable Approach for Normalizing E-commerce Text Attributes (SANTA)
- Title(参考訳): E-Commerce Text Attributes(SANTA)の標準化のためのスケーラブルなアプローチ
- Authors: Ravi Shankar Mishra, Kartik Mehta, Nikhil Rasiwasia
- Abstract要約: 本稿では,Eコマース属性値を自動的に正規化するフレームワークであるSANTAを提案する。
まず,9つの構文マッチングアルゴリズムについて広範な研究を行った。
弦の類似性だけでは属性正規化には不十分であると主張する。
- 参考スコア(独自算出の注目度): 0.25782420501870296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present SANTA, a scalable framework to automatically
normalize E-commerce attribute values (e.g. "Win 10 Pro") to a fixed set of
pre-defined canonical values (e.g. "Windows 10"). Earlier works on attribute
normalization focused on fuzzy string matching (also referred as syntactic
matching in this paper). In this work, we first perform an extensive study of
nine syntactic matching algorithms and establish that 'cosine' similarity leads
to best results, showing 2.7% improvement over commonly used Jaccard index.
Next, we argue that string similarity alone is not sufficient for attribute
normalization as many surface forms require going beyond syntactic matching
(e.g. "720p" and "HD" are synonyms). While semantic techniques like
unsupervised embeddings (e.g. word2vec/fastText) have shown good results in
word similarity tasks, we observed that they perform poorly to distinguish
between close canonical forms, as these close forms often occur in similar
contexts. We propose to learn token embeddings using a twin network with
triplet loss. We propose an embedding learning task leveraging raw attribute
values and product titles to learn these embeddings in a self-supervised
fashion. We show that providing supervision using our proposed task improves
over both syntactic and unsupervised embeddings based techniques for attribute
normalization. Experiments on a real-world attribute normalization dataset of
50 attributes show that the embeddings trained using our proposed approach
obtain 2.3% improvement over best string matching and 19.3% improvement over
best unsupervised embeddings.
- Abstract(参考訳): 本稿では,Eコマース属性値を自動的に正規化するスケーラブルなフレームワークであるSANTAを提案する。
「Win 10 Pro」は、予め定義された標準値の固定セット(例)である。
「Windows 10」。
属性正規化に関する初期の研究は、ファジィ文字列マッチング(本論文では構文マッチングとも呼ばれる)に焦点を当てていた。
本研究では,まず9つの構文マッチングアルゴリズムの広範な研究を行い,'コサイン'の類似性が最良の結果をもたらすことを確認し,一般的なjaccardインデックスよりも2.7%改善した。
次に、弦の類似性だけでは属性正規化には不十分であり、多くの曲面形式は構文マッチングを超える必要がある(例)。
720p」と「hd」は同義語である。
教師なし埋め込み(例えば)のような意味的手法は
word2vec/fastText)は、単語類似性タスクにおいて良い結果を示しており、これらの近接形式は、しばしば類似した文脈で発生するので、近接正準形式を区別するには不十分であることがわかった。
三重項損失を持つ双対ネットワークを用いてトークン埋め込みを学ぶことを提案する。
本稿では,これらの埋め込みを自己指導型で学習するために,原属性値と製品タイトルを活用する埋め込み学習タスクを提案する。
本稿では,提案課題を用いた監視を行うことにより,属性正規化のための構文的手法と非教師的埋め込み技術の両方よりも向上することを示す。
実世界の50属性の属性正規化データセットの実験から,提案手法を用いてトレーニングした埋め込みは,文字列マッチングよりも2.3%,教師なし埋め込みより19.3%向上していることがわかった。
関連論文リスト
- SimMatchV2: Semi-Supervised Learning with Graph Consistency [53.31681712576555]
半教師付き学習アルゴリズムSimMatchV2を導入する。
グラフの観点からラベル付きデータとラベルなしデータの間の様々な一貫性の規則化を定式化する。
SimMatchV2は、複数の半教師付き学習ベンチマークで検証されている。
論文 参考訳(メタデータ) (2023-08-13T05:56:36Z) - VacancySBERT: the approach for representation of titles and skills for
semantic similarity search in the recruitment domain [0.0]
本稿では、HRドメインに適用されたディープラーニングセマンティックサーチアルゴリズムに焦点を当てた。
この記事の目的は、求人広告で言及されているスキルとタイトルを結びつけるために、シームズネットワークをトレーニングする新しいアプローチを開発することである。
論文 参考訳(メタデータ) (2023-07-31T13:21:15Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - CoMatch: Semi-supervised Learning with Contrastive Graph Regularization [86.84486065798735]
CoMatchは、支配的なアプローチを統一する、新しい半教師付き学習手法である。
複数のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-11-23T02:54:57Z) - UiO-UvA at SemEval-2020 Task 1: Contextualised Embeddings for Lexical
Semantic Change Detection [5.099262949886174]
本稿では,時とともに意味的ドリフトの度合いで単語をランク付けするSubtask 2に焦点を当てた。
最も効果的なアルゴリズムは、平均的なトークン埋め込みとトークン埋め込み間のペア距離のコサイン類似性に依存する。
論文 参考訳(メタデータ) (2020-04-30T18:43:57Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。