論文の概要: Short Text Pre-training with Extended Token Classification for
E-commerce Query Understanding
- arxiv url: http://arxiv.org/abs/2210.03915v1
- Date: Sat, 8 Oct 2022 04:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:49:43.824198
- Title: Short Text Pre-training with Extended Token Classification for
E-commerce Query Understanding
- Title(参考訳): 電子商取引クエリ理解のための拡張トークン分類による短文事前学習
- Authors: Haoming Jiang, Tianyu Cao, Zheng Li, Chen Luo, Xianfeng Tang, Qingyu
Yin, Danqing Zhang, Rahul Goutam, Bing Yin
- Abstract要約: 拡張トークン分類(ETC)と呼ばれる,短いテキストに特化して設計された新しい事前学習タスクを提案する。
入力テキストをマスキングする代わりに、ジェネレータネットワークを介してトークンを挿入することで入力を拡張し、拡張された入力にどのトークンが挿入されているかを識別する識別器を訓練する。
- 参考スコア(独自算出の注目度): 41.65431345200079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: E-commerce query understanding is the process of inferring the shopping
intent of customers by extracting semantic meaning from their search queries.
The recent progress of pre-trained masked language models (MLM) in natural
language processing is extremely attractive for developing effective query
understanding models. Specifically, MLM learns contextual text embedding via
recovering the masked tokens in the sentences. Such a pre-training process
relies on the sufficient contextual information. It is, however, less effective
for search queries, which are usually short text. When applying masking to
short search queries, most contextual information is lost and the intent of the
search queries may be changed. To mitigate the above issues for MLM
pre-training on search queries, we propose a novel pre-training task
specifically designed for short text, called Extended Token Classification
(ETC). Instead of masking the input text, our approach extends the input by
inserting tokens via a generator network, and trains a discriminator to
identify which tokens are inserted in the extended input. We conduct
experiments in an E-commerce store to demonstrate the effectiveness of ETC.
- Abstract(参考訳): eコマースクエリ理解は,検索クエリから意味を抽出することで,顧客のショッピング意図を推測するプロセスである。
自然言語処理におけるMLM(Pre-trained masked language model)の最近の進歩は、効果的なクエリ理解モデルを開発する上で非常に魅力的である。
具体的には、MLMは文中のマスキングトークンを復元することでコンテキストテキストの埋め込みを学習する。
このような事前学習プロセスは十分な文脈情報に依存する。
しかし、通常は短いテキストである検索クエリでは効果が低い。
短い検索クエリにマスキングを適用すると、ほとんどのコンテキスト情報が失われ、検索クエリの意図が変更される可能性がある。
検索クエリにおけるMLM事前学習の課題を軽減するために,拡張トークン分類(ETC)と呼ばれる,短いテキストに特化して設計された新しい事前学習タスクを提案する。
入力テキストをマスキングする代わりに、ジェネレータネットワークを介してトークンを挿入することで入力を拡張し、拡張された入力に挿入されたトークンを識別するために識別器を訓練する。
Eコマースストアで実験を行い,ETCの有効性を実証した。
関連論文リスト
- QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval [12.543590253664492]
我々は、$textitQueryBuilder$という、インタラクティブな新しいシステムを提示します。
初心者の英語を話すユーザは、少量の労力でクエリを作成できる。
ユーザの情報要求に応じた言語間情報検索クエリを迅速に開発する。
論文 参考訳(メタデータ) (2024-09-07T00:46:58Z) - Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus [7.046417074932257]
本稿では,自然言語処理技術と機械学習アルゴリズムを組み合わせて,銀行取引記述を分類する新しいシステムについて述べる。
また,スパム検出における既存のソリューションに触発されて,ジャカード距離に基づくトレーニングセットサイズの削減を目的とした,短いテキスト類似度検出手法を提案する。
Google PlayとApp Storeで利用可能なパーソナルファイナンスアプリケーションCoinScrapのユースケースを提示する。
論文 参考訳(メタデータ) (2024-03-29T13:15:46Z) - An Interactive Query Generation Assistant using LLM-based Prompt
Modification and User Feedback [9.461978375200102]
提案するインタフェースは,単言語および多言語文書コレクション上での対話型クエリ生成をサポートする,新しい検索インタフェースである。
このインタフェースにより、ユーザーは異なるLCMによって生成されたクエリを洗練し、検索したドキュメントやパスに対するフィードバックを提供し、より効果的なクエリを生成するプロンプトとしてユーザーのフィードバックを組み込むことができる。
論文 参考訳(メタデータ) (2023-11-19T04:42:24Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - Knowledgeable Salient Span Mask for Enhancing Language Models as
Knowledge Base [51.55027623439027]
我々は、モデルが構造化されていないテキストから、完全に自己教師された方法でより多くの知識を学習するのを助ける2つのソリューションを開発する。
最高の知識を得るために、私たちは、継続的事前学習における知識の完全な自己教師型学習を初めて探求します。
論文 参考訳(メタデータ) (2022-04-17T12:33:34Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。