論文の概要: Knowledge Distillation for Enhancing Walmart E-commerce Search Relevance Using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07105v1
- Date: Sun, 11 May 2025 20:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.216979
- Title: Knowledge Distillation for Enhancing Walmart E-commerce Search Relevance Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたウォルマートEコマース検索関連性向上のための知識蒸留
- Authors: Hongwei Shang, Nguyen Vo, Nitin Yadav, Tian Zhang, Ajit Puthenputhussery, Xunfan Cai, Shuyi Chen, Prijith Chandran, Changsung Kang,
- Abstract要約: 大規模言語モデル(LLM)は優れたランキング機能を提供しますが、高レイテンシ要求のため、リアルタイムシステムにデプロイすることは困難です。
高性能LLMをより効率的で低レイテンシの学生モデルに蒸留する新しいフレームワークを提案する。
学生モデルは、非常に肯定的な指標でWalmart.comで生産に成功している。
- 参考スコア(独自算出の注目度): 6.324684465674387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the products displayed in e-commerce search results are relevant to users queries is crucial for improving the user experience. With their advanced semantic understanding, deep learning models have been widely used for relevance matching in search tasks. While large language models (LLMs) offer superior ranking capabilities, it is challenging to deploy LLMs in real-time systems due to the high-latency requirements. To leverage the ranking power of LLMs while meeting the low-latency demands of production systems, we propose a novel framework that distills a high performing LLM into a more efficient, low-latency student model. To help the student model learn more effectively from the teacher model, we first train the teacher LLM as a classification model with soft targets. Then, we train the student model to capture the relevance margin between pairs of products for a given query using mean squared error loss. Instead of using the same training data as the teacher model, we significantly expand the student model dataset by generating unlabeled data and labeling it with the teacher model predictions. Experimental results show that the student model performance continues to improve as the size of the augmented training data increases. In fact, with enough augmented data, the student model can outperform the teacher model. The student model has been successfully deployed in production at Walmart.com with significantly positive metrics.
- Abstract(参考訳): eコマース検索結果に表示される製品がユーザクエリに関連することを保証することは、ユーザエクスペリエンスの向上に不可欠である。
高度なセマンティック理解により、深層学習モデルは検索タスクの関連マッチングに広く利用されている。
大規模言語モデル(LLM)は優れたランキング機能を提供するが、高レイテンシ要求のため、リアルタイムシステムにLLMをデプロイすることは困難である。
生産システムの低レイテンシ要求に応えつつ,LLMのランキング能力を活用するために,高性能なLLMをより効率的で低レイテンシの学生モデルに蒸留する新しい枠組みを提案する。
教師モデルから生徒モデルをより効果的に学習するために,まず,ソフトターゲットを持つ分類モデルとして教師 LLM を訓練する。
そして、平均二乗誤差損失を用いて、与えられたクエリに対する製品ペア間の関連性マージンを抽出するために、学生モデルを訓練する。
教師モデルと同じトレーニングデータを使用する代わりに、未ラベルデータを生成して教師モデル予測とラベル付けすることで、学生モデルデータセットを著しく拡張する。
実験結果から, 強化トレーニングデータのサイズが大きくなるにつれて, 学生モデルの性能が向上し続けていることが明らかとなった。
実際、十分な拡張データがあれば、生徒モデルは教師モデルより優れている。
学生モデルは、非常に肯定的な指標でWalmart.comで生産に成功している。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。