論文の概要: Towards Better Query Classification with Multi-Expert Knowledge
Condensation in JD Ads Search
- arxiv url: http://arxiv.org/abs/2308.01098v1
- Date: Wed, 2 Aug 2023 12:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:12:01.720617
- Title: Towards Better Query Classification with Multi-Expert Knowledge
Condensation in JD Ads Search
- Title(参考訳): JD広告検索におけるマルチエキスパート知識凝縮を用いたクエリ分類の改善に向けて
- Authors: Kun-Peng Ning, Ming Pang, Zheng Fang, Xue Jiang, Xi-Wei Zhao,
Chang-Ping Peng, Zhan-Gang Lin, Jing-He Hu, Jing-Ping Shao
- Abstract要約: 浅いモデル FastText は効率的なオンライン推論に広く使われている。
BERTは効果的なソリューションですが、オンライン推論のレイテンシが高くなり、計算コストも高くなります。
本稿では,厳密な低レイテンシ制約下でのオンラインFastTextモデルの分類性能を高めるための知識凝縮法を提案する。
- 参考スコア(独自算出の注目度): 11.201524649936202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search query classification, as an effective way to understand user intents,
is of great importance in real-world online ads systems. To ensure a lower
latency, a shallow model (e.g. FastText) is widely used for efficient online
inference. However, the representation ability of the FastText model is
insufficient, resulting in poor classification performance, especially on some
low-frequency queries and tailed categories. Using a deeper and more complex
model (e.g. BERT) is an effective solution, but it will cause a higher online
inference latency and more expensive computing costs. Thus, how to juggle both
inference efficiency and classification performance is obviously of great
practical importance. To overcome this challenge, in this paper, we propose
knowledge condensation (KC), a simple yet effective knowledge distillation
framework to boost the classification performance of the online FastText model
under strict low latency constraints. Specifically, we propose to train an
offline BERT model to retrieve more potentially relevant data. Benefiting from
its powerful semantic representation, more relevant labels not exposed in the
historical data will be added into the training set for better FastText model
training. Moreover, a novel distribution-diverse multi-expert learning strategy
is proposed to further improve the mining ability of relevant data. By training
multiple BERT models from different data distributions, it can respectively
perform better at high, middle, and low-frequency search queries. The model
ensemble from multi-distribution makes its retrieval ability more powerful. We
have deployed two versions of this framework in JD search, and both offline
experiments and online A/B testing from multiple datasets have validated the
effectiveness of the proposed approach.
- Abstract(参考訳): 検索クエリ分類は、ユーザの意図を理解する効果的な方法であり、実際のオンライン広告システムにおいて非常に重要である。
低レイテンシを確保するために、浅いモデル(例えばFastText)が効率的なオンライン推論に広く使われている。
しかし、fasttextモデルの表現能力は不十分であり、特に低頻度クエリや尾付きカテゴリでは分類性能が低下する。
より深く複雑なモデル(bertなど)を使用することは効果的なソリューションだが、オンライン推論の遅延が増加し、計算コストが高くなる。
したがって、推論効率と分類性能の両方をジャグリングする方法は明らかに極めて重要である。
本稿では,この課題を克服するために,オンライン高速テキストモデルの厳密な低レイテンシ制約下での分類性能を向上させるための,単純かつ効果的な知識蒸留フレームワークである知識凝縮(kc)を提案する。
具体的には、より関連性の高いデータを取得するために、オフラインのBERTモデルをトレーニングすることを提案する。
強力なセマンティック表現から恩恵を受けることで、過去のデータに公開されていない関連性の高いラベルがトレーニングセットに追加され、FastTextモデルのトレーニングが改善される。
さらに, 関係データのマイニング能力の向上を図るため, 分散分散多元学習戦略を提案する。
異なるデータ分布から複数のbertモデルをトレーニングすることで、それぞれ、ハイ、ミドル、低周波の検索クエリでパフォーマンスが向上する。
マルチディストリビューションからのモデルアンサンブルにより、その検索能力はより強力になる。
我々はこのフレームワークの2つのバージョンをJD検索にデプロイし、オフライン実験と複数のデータセットからのオンラインA/Bテストの両方で提案手法の有効性を検証した。
関連論文リスト
- Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores [12.86467344792873]
提案手法では,専門的なスコアから派生したソフトラベルをファインチューン埋め込みモデルに適用する。
オンラインショッピングサイトと8つのエキスパートモデルからQ&Aデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-19T01:59:25Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce [31.076432176267335]
我々は,中国のeコマースにおける効率的かつ解釈可能な関連アーキテクチャであるディープバグ・オブ・ワード(DeepBoW)モデルを提案する。
提案手法は,単語重対の集合であるスパースBoW表現に問合せと積を符号化することである。
関連スコアは、クエリと製品とのスパースBoW表現間の一致した単語の蓄積によって測定される。
論文 参考訳(メタデータ) (2024-07-12T16:18:05Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation [2.1915057426589746]
オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
論文 参考訳(メタデータ) (2022-03-15T08:54:36Z) - Fast Class-wise Updating for Online Hashing [196.14748396106955]
本稿では,FCOH(Fast Class-wise Updating for Online Hashing)と呼ばれる新しいオンラインハッシュ方式を提案する。
クラスワイズ更新法は、バイナリコード学習を分解し、代わりにクラスワイズ方式でハッシュ関数を更新する。
オンラインの効率をより高めるために,異なるバイナリ制約を独立に扱うことで,オンライントレーニングを高速化する半緩和最適化を提案する。
論文 参考訳(メタデータ) (2020-12-01T07:41:54Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。