論文の概要: QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query
Attribute Value Extraction
- arxiv url: http://arxiv.org/abs/2108.08468v1
- Date: Thu, 19 Aug 2021 03:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-21 02:13:24.482729
- Title: QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query
Attribute Value Extraction
- Title(参考訳): QUEACO:クエリ属性値抽出のための弱ラベル行動データからの宝物検索
- Authors: Danqing Zhang, Zheng Li, Tianyu Cao, Chen Luo, Tony Wu, Hanqing Lu,
Yiwei Song, Bing Yin, Tuo Zhao, Qiang Yang
- Abstract要約: 本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。
NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。
AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
- 参考スコア(独自算出の注目度): 57.56700153507383
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study the problem of query attribute value extraction, which aims to
identify named entities from user queries as diverse surface form attribute
values and afterward transform them into formally canonical forms. Such a
problem consists of two phases: {named entity recognition (NER)} and {attribute
value normalization (AVN)}. However, existing works only focus on the NER phase
but neglect equally important AVN. To bridge this gap, this paper proposes a
unified query attribute value extraction system in e-commerce search named
QUEACO, which involves both two phases. Moreover, by leveraging large-scale
weakly-labeled behavior data, we further improve the extraction performance
with less supervision cost. Specifically, for the NER phase, QUEACO adopts a
novel teacher-student network, where a teacher network that is trained on the
strongly-labeled data generates pseudo-labels to refine the weakly-labeled data
for training a student network. Meanwhile, the teacher network can be
dynamically adapted by the feedback of the student's performance on
strongly-labeled data to maximally denoise the noisy supervisions from the weak
labels. For the AVN phase, we also leverage the weakly-labeled
query-to-attribute behavior data to normalize surface form attribute values
from queries into canonical forms from products. Extensive experiments on a
real-world large-scale E-commerce dataset demonstrate the effectiveness of
QUEACO.
- Abstract(参考訳): ユーザクエリから名前付きエンティティを多種多様な表面的属性値として識別し,その後公式な標準形式に変換するクエリ属性値抽出の問題について検討する。
このような問題は、 {name entity recognition (NER) と {attribute value normalization (AVN) の2つのフェーズから構成される。
しかし、既存の研究はNERフェーズのみに焦点を当て、同様に重要なAVNを無視している。
そこで本稿では,このギャップを埋めるため,eコマース検索におけるクエリ属性値の統一抽出システムqueacoを提案する。
さらに,大規模弱ラベル動作データを活用することで,監視コストを低減し,抽出性能をさらに向上させる。
具体的には、NERフェーズにおいて、QUEACOは、強力なラベル付きデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成し、学生ネットワークを訓練するための弱いラベル付きデータを洗練する新しい教師学生ネットワークを採用する。
一方、教師ネットワークは、強ラベルデータに対する生徒の演奏のフィードバックにより動的に適応でき、弱ラベルからノイズの多い監督を最大限に無視することができる。
avnフェーズでは、弱いラベルのクエリから属性への振舞いデータを利用して、クエリから表層フォーム属性値を製品から正準形式に正規化する。
実世界の大規模eコマースデータセットに関する広範な実験は、queacoの有効性を示している。
関連論文リスト
- Semi-Supervised Teacher-Reference-Student Architecture for Action Quality Assessment [33.01458098153753]
アクション品質評価(AQA)手法は、完全に教師付き学習のための大量のラベルアノテーションを必要とすることが多い。
本稿では,大量のラベルのないデータを活用することで,AQAタスクのより良い評価に利用できる新しい半教師付き手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T03:36:39Z) - Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。
ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。
階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文 参考訳(メタデータ) (2024-03-09T21:55:55Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。