論文の概要: Bootstrapping Named Entity Recognition in E-Commerce with Positive
Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2005.11075v1
- Date: Fri, 22 May 2020 09:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:07:09.641298
- Title: Bootstrapping Named Entity Recognition in E-Commerce with Positive
Unlabeled Learning
- Title(参考訳): ポジティブなラベルなし学習を伴うeコマースにおける名前付きエンティティ認識のブートストラップ
- Authors: Hanchu Zhang, Leonhard Hennig, Christoph Alt, Changjian Hu, Yao Meng,
Chao Wang
- Abstract要約: 本稿では、ドメイン固有の言語機能を統合して、シード辞書を迅速かつ効率的に拡張するブートストラップ付き正非ラベル学習アルゴリズムを提案する。
このモデルは、製品記述の新しいデータセットで平均72.02%のF1スコアを達成し、ベースラインのBiLSTM分類器よりも3.63%改善した。
- 参考スコア(独自算出の注目度): 13.790883865748004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) in domains like e-commerce is an understudied
problem due to the lack of annotated datasets. Recognizing novel entity types
in this domain, such as products, components, and attributes, is challenging
because of their linguistic complexity and the low coverage of existing
knowledge resources. To address this problem, we present a bootstrapped
positive-unlabeled learning algorithm that integrates domain-specific
linguistic features to quickly and efficiently expand the seed dictionary. The
model achieves an average F1 score of 72.02% on a novel dataset of product
descriptions, an improvement of 3.63% over a baseline BiLSTM classifier, and in
particular exhibits better recall (4.96% on average).
- Abstract(参考訳): eコマースのようなドメインで名前付きエンティティ認識(NER)は、アノテーション付きデータセットがないため、未調査の問題である。
製品、コンポーネント、属性など、このドメインにおける新しいエンティティタイプを認識することは、言語の複雑さと既存の知識リソースのカバレッジの低さから困難である。
この問題に対処するために、ドメイン固有の言語機能を統合して、シード辞書を迅速かつ効率的に拡張する自己学習アルゴリズムを提案する。
このモデルは、製品記述の新しいデータセットで平均72.02%のf1スコアを達成し、ベースラインのbilstm分類器よりも3.63%改善され、特に良いリコール(平均4.96%)を示す。
関連論文リスト
- Named Entity Recognition Under Domain Shift via Metric Learning for Life Sciences [55.185456382328674]
名前付きエンティティ認識モデルの拡張のための転写学習の適用性について検討する。
本モデルでは,(1)アノテートイベントからの知識を付加してエンティティ間の関係を確立するソースドメインにおけるエンティティグループ化,2) 対象ドメインにおけるエンティティの識別を擬似ラベリングとコントラスト学習に頼って,2つのドメイン内のエンティティ間の識別を強化する,という2つの段階で構成されている。
論文 参考訳(メタデータ) (2024-01-19T03:49:28Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - ANEC: An Amharic Named Entity Corpus and Transformer Based Recognizer [0.0]
本稿では,条件付きランダムフィールド層を用いた双方向長短期記憶に基づくAmharicというエンティティ認識システムを提案する。
我々の名前付きエンティティ認識システムは93%のF_1スコアを達成しており、これはAmharicの名前付きエンティティ認識の新しい最先端結果である。
論文 参考訳(メタデータ) (2022-07-02T09:50:37Z) - QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query
Attribute Value Extraction [57.56700153507383]
本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。
NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。
AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
論文 参考訳(メタデータ) (2021-08-19T03:24:23Z) - Biomedical Named Entity Recognition at Scale [6.85316573653194]
7つの公開バイオメディカル・ベンチマークで新しい最先端の結果を得られる1つのトレーニング可能なNERモデルを提案する。
このモデルは、オープンソースのSpark NLPライブラリの一部として、プロダクショングレードのコードベースで自由に利用できる。
論文 参考訳(メタデータ) (2020-11-12T11:10:17Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive
Object Re-ID [55.21702895051287]
ドメイン適応オブジェクトre-IDは、学習した知識をラベル付けされたソースドメインからラベル付けされていないターゲットドメインに転送することを目的としています。
本稿では,ハイブリットメモリを用いた自己評価型コントラスト学習フレームワークを提案する。
提案手法は,オブジェクトre-IDの複数のドメイン適応タスクにおいて,最先端の処理性能を向上する。
論文 参考訳(メタデータ) (2020-06-04T09:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。