論文の概要: Deep Contextual Embeddings for Address Classification in E-commerce
- arxiv url: http://arxiv.org/abs/2007.03020v1
- Date: Mon, 6 Jul 2020 19:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 01:08:17.723279
- Title: Deep Contextual Embeddings for Address Classification in E-commerce
- Title(参考訳): eコマースにおけるアドレス分類のための深層コンテキスト埋め込み
- Authors: Shreyas Mangalgi, Lakshya Kumar and Ravindra Babu Tallamraju
- Abstract要約: インドのような発展途上国のEコマース顧客は、発送先を入力している間、固定フォーマットに従わない傾向にある。
アドレスの言語を理解することは必須であり、出荷を遅延なくルーティングできる。
自然言語処理(NLP)の最近の進歩からモチベーションを導き,顧客アドレスを理解するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.03222802562733786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce customers in developing nations like India tend to follow no fixed
format while entering shipping addresses. Parsing such addresses is challenging
because of a lack of inherent structure or hierarchy. It is imperative to
understand the language of addresses, so that shipments can be routed without
delays. In this paper, we propose a novel approach towards understanding
customer addresses by deriving motivation from recent advances in Natural
Language Processing (NLP). We also formulate different pre-processing steps for
addresses using a combination of edit distance and phonetic algorithms. Then we
approach the task of creating vector representations for addresses using
Word2Vec with TF-IDF, Bi-LSTM and BERT based approaches. We compare these
approaches with respect to sub-region classification task for North and South
Indian cities. Through experiments, we demonstrate the effectiveness of
generalized RoBERTa model, pre-trained over a large address corpus for language
modelling task. Our proposed RoBERTa model achieves a classification accuracy
of around 90% with minimal text preprocessing for sub-region classification
task outperforming all other approaches. Once pre-trained, the RoBERTa model
can be fine-tuned for various downstream tasks in supply chain like pincode
suggestion and geo-coding. The model generalizes well for such tasks even with
limited labelled data. To the best of our knowledge, this is the first of its
kind research proposing a novel approach of understanding customer addresses in
e-commerce domain by pre-training language models and fine-tuning them for
different purposes.
- Abstract(参考訳): インドのような途上国のeコマースの顧客は、発送アドレスを入力する間、固定フォーマットに従わない傾向がある。
このようなアドレスのパーシングは、固有の構造や階層が欠如しているため、難しい。
アドレスの言語を理解することは必須であり、出荷を遅延なくルーティングできる。
本稿では,近年の自然言語処理(NLP)の進歩からモチベーションを導き,顧客アドレスを理解するための新しいアプローチを提案する。
また,編集距離と音韻アルゴリズムの組み合わせを用いてアドレスの前処理手順を定式化する。
次に、TF-IDF、Bi-LSTM、BERTベースのアプローチでWord2Vecを用いてアドレスのベクトル表現を作成するタスクにアプローチする。
これらのアプローチを,北・南インドの都市におけるサブリージョン分類タスクと比較した。
実験により,言語モデリングタスクのための大規模アドレスコーパス上で事前学習した汎用RoBERTaモデルの有効性を示す。
提案するrobertaモデルは,サブリージョン分類タスクに対する最小テキスト前処理で約90%の分類精度を達成し,他の手法よりも優れている。
一度トレーニングを済ませば、RoBERTaモデルはピンコード提案やジオコーディングといったサプライチェーンの様々な下流タスクに対して微調整できる。
このモデルはラベル付きデータに制限がある場合でも、そのようなタスクをうまく一般化する。
私たちの知る限りでは、言語モデルを事前学習し、異なる目的のために微調整することで、Eコマース領域における顧客の住所を理解する新しいアプローチを提案する研究としては、これが初めてのものだ。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - A Parameter-Efficient Learning Approach to Arabic Dialect Identification
with Pre-Trained General-Purpose Speech Model [9.999900422312098]
我々は、アラビア方言識別(ADI)のためのGSMを条件にトークンレベルのラベルマッピングを開発する。
我々は,バニラ微調整により,ADI-17データセット上で最先端の精度を実現する。
本研究は、小さなデータセットを用いてアラビア方言を識別する方法を示し、オープンソースコードと事前訓練されたモデルで制限する。
論文 参考訳(メタデータ) (2023-05-18T18:15:53Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text
Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。
電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文 参考訳(メタデータ) (2021-12-15T19:02:49Z) - Multinational Address Parsing: A Zero-Shot Evaluation [0.3211619859724084]
アドレス解析は、通り名や郵便番号などのアドレスを構成するセグメントを識別する。
ニューラルネットワークに関するこれまでの研究は、単一のソース国からのアドレスを解析することだけに重点を置いていた。
本稿では,ある国の住所における深層学習モデルの訓練によって得られたアドレス解析知識を他国に移管する可能性について考察する。
論文 参考訳(メタデータ) (2021-12-07T21:40:43Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Leveraging Subword Embeddings for Multinational Address Parsing [0.0764671395172401]
我々は、複数の国のアドレスを同時に解析できる単一のモデルを構築します。
我々は,事前処理や後処理を必要とせず,訓練に使用する国で約99%のアキュラティを達成している。
ゼロショット・トランスファー・ラーニング・セッティングにおいて、一部の国のアドレスのトレーニングによって得られたアドレス解析知識を、それ以上の訓練を受けずに他国に転送する可能性について検討する。
論文 参考訳(メタデータ) (2020-06-29T16:14:27Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。