論文の概要: BERT2DNN: BERT Distillation with Massive Unlabeled Data for Online
E-Commerce Search
- arxiv url: http://arxiv.org/abs/2010.10442v1
- Date: Tue, 20 Oct 2020 16:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:37:43.870536
- Title: BERT2DNN: BERT Distillation with Massive Unlabeled Data for Online
E-Commerce Search
- Title(参考訳): BERT2DNN:オンラインEコマース検索のための大量の未ラベルデータによるBERT蒸留
- Authors: Yunjiang Jiang, Yue Shang, Ziyang Liu, Hongwei Shen, Yun Xiao, Wei
Xiong, Sulong Xu, Weipeng Yan and Di Jin
- Abstract要約: 関連性は、Eコマース検索プラットフォームのユーザエクスペリエンスとビジネス利益に大きな影響を与える。
本稿では,BERTと関連する多層トランスフォーマー教師モデルから知識を抽出し,検索関連性予測のためのデータ駆動型フレームワークを提案する。
GLUEベンチマークから,社内のeコマース検索関連データと感情分析に基づく公開データの両方について実験を行った。
- 参考スコア(独自算出の注目度): 34.951088875638696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relevance has significant impact on user experience and business profit for
e-commerce search platform. In this work, we propose a data-driven framework
for search relevance prediction, by distilling knowledge from BERT and related
multi-layer Transformer teacher models into simple feed-forward networks with
large amount of unlabeled data. The distillation process produces a student
model that recovers more than 97\% test accuracy of teacher models on new
queries, at a serving cost that's several magnitude lower (latency 150x lower
than BERT-Base and 15x lower than the most efficient BERT variant, TinyBERT).
The applications of temperature rescaling and teacher model stacking further
boost model accuracy, without increasing the student model complexity.
We present experimental results on both in-house e-commerce search relevance
data as well as a public data set on sentiment analysis from the GLUE
benchmark. The latter takes advantage of another related public data set of
much larger scale, while disregarding its potentially noisy labels. Embedding
analysis and case study on the in-house data further highlight the strength of
the resulting model. By making the data processing and model training source
code public, we hope the techniques presented here can help reduce energy
consumption of the state of the art Transformer models and also level the
playing field for small organizations lacking access to cutting edge machine
learning hardwares.
- Abstract(参考訳): 関連性は、Eコマース検索プラットフォームのユーザエクスペリエンスとビジネス利益に大きな影響を与える。
本研究では,BERTと関連する多層トランスフォーマー教師モデルから知識を抽出し,大量のラベル付きデータを含む単純なフィードフォワードネットワークに変換することで,検索関連性予測のためのデータ駆動フレームワークを提案する。
蒸留プロセスは、教師モデルの新しいクエリに対する99%以上のテスト精度を、数桁低いサービスコストで回復する学生モデルを生成する(BERT-Baseより150倍低く、最も効率的なBERT変種であるTinyBERTより15倍低い)。
温度再スケーリングと教師モデルのスタック化の応用は,学生モデルの複雑さを増すことなく,モデルの精度をさらに向上させる。
本稿では,社内Eコマース検索関連データとGLUEベンチマークによる感情分析に基づく公開データの両方について実験を行った。
後者は、潜在的に騒がしいラベルを無視しながら、より大きなスケールの他の関連する公開データセットを利用する。
組み込み分析と社内データに関するケーススタディは、結果モデルの強みをさらに強調する。
データ処理とモデルトレーニングのソースコードを公開することにより、ここで提示される技術は、最先端の機械学習ハードウェアにアクセスできない小組織のために、アートトランスフォーマーモデルの状態のエネルギー消費を削減するのに役立つことを願っている。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Which Student is Best? A Comprehensive Knowledge Distillation Exam for
Task-Specific BERT Models [3.303435360096988]
タスク固有のBERTベースの教師モデルから様々な学生モデルへの知識蒸留ベンチマークを行う。
インドネシア語でテキスト分類とシークエンスラベリングという2つのタスクでグループ化された12のデータセットについて実験を行った。
実験の結果, トランスフォーマーモデルの普及にもかかわらず, BiLSTM と CNN の学生モデルを用いることで, 性能と計算資源の最良のトレードオフが得られることがわかった。
論文 参考訳(メタデータ) (2022-01-03T10:07:13Z) - Data Distillation for Text Classification [7.473576666437028]
データ蒸留は、大規模なトレーニングデータセットから、より小さな合成データセットに知識を蒸留することを目的としている。
テキスト分類のための新しいデータ蒸留法を開発した。
元のテキストデータの0.1%のサイズの蒸留されたデータは、元の約90%のパフォーマンスを達成する結果は、かなり印象的です。
論文 参考訳(メタデータ) (2021-04-17T04:54:54Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。