論文の概要: Bridging the Gap: Unpacking the Hidden Challenges in Knowledge Distillation for Online Ranking Systems
- arxiv url: http://arxiv.org/abs/2408.14678v1
- Date: Mon, 26 Aug 2024 23:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:34:19.144325
- Title: Bridging the Gap: Unpacking the Hidden Challenges in Knowledge Distillation for Online Ranking Systems
- Title(参考訳): ギャップを埋める - オンラインランキングシステムの知識蒸留における隠れた挑戦を解き放つ
- Authors: Nikhil Khani, Shuo Yang, Aniruddh Nath, Yang Liu, Pendo Abbo, Li Wei, Shawn Andrews, Maciej Kula, Jarrod Kahn, Zhe Zhao, Lichan Hong, Ed Chi,
- Abstract要約: 知識蒸留(KD)は、大きなモデルをより小さく、より効率的なモデルに圧縮するための強力なアプローチである。
本稿では,Google内の複数の大規模パーソナライズされたビデオレコメンデーションシステム上で,堅牢なKDシステムを構築し,厳密に評価する。
- 参考スコア(独自算出の注目度): 13.437632008276552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) is a powerful approach for compressing a large model into a smaller, more efficient model, particularly beneficial for latency-sensitive applications like recommender systems. However, current KD research predominantly focuses on Computer Vision (CV) and NLP tasks, overlooking unique data characteristics and challenges inherent to recommender systems. This paper addresses these overlooked challenges, specifically: (1) mitigating data distribution shifts between teacher and student models, (2) efficiently identifying optimal teacher configurations within time and budgetary constraints, and (3) enabling computationally efficient and rapid sharing of teacher labels to support multiple students. We present a robust KD system developed and rigorously evaluated on multiple large-scale personalized video recommendation systems within Google. Our live experiment results demonstrate significant improvements in student model performance while ensuring consistent and reliable generation of high quality teacher labels from a continuous data stream of data.
- Abstract(参考訳): 知識蒸留(KD)は、大規模モデルをより小さく、より効率的なモデルに圧縮するための強力なアプローチである。
しかしながら、現在のKD研究は、主にコンピュータビジョン(CV)とNLPタスクに焦点を当てており、レコメンデーターシステムに固有の独自のデータ特性と課題を見下ろしている。
本稿では,(1)教師モデルと学生モデル間のデータ分散シフトの緩和,(2)時間的制約と予算的制約の中で最適な教師構成を効率的に同定すること,(3)教師ラベルの計算的かつ迅速な共有を可能にすること,といった課題に対処する。
本稿では,Google内の複数の大規模パーソナライズされたビデオレコメンデーションシステム上で,堅牢なKDシステムを構築し,厳密に評価する。
実験の結果,データストリームから高品質な教師ラベルを連続的に生成し,信頼性を確保しつつ,学生モデルの性能を著しく向上させることができた。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Continual Collaborative Distillation for Recommender System [20.10443406772368]
非定常データストリームにおける教師学生KDの運用に関する体系的なアプローチを提案する。
我々は,教師と学生がデータストリームに沿って継続的に協調的に進化する連続的協調蒸留(Continuous Collaborative Distillation, CCD)フレームワークを提案する。
実世界の2つのデータセットにおいて, CCDの有効性を定量的, アブレーション的, 探索的実験により検証した。
論文 参考訳(メタデータ) (2024-05-29T12:43:39Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Application of Deep Self-Attention in Knowledge Tracing [2.5852720579998336]
本稿では,中国の多くの大学の学生が使用しているオンラインアセスメントシステムであるPTAのデータをもとに,Deep Self-Attentive Knowledge Tracing (DSAKT)を提案する。
PTAのデータの実験では、DSAKTは知識追跡において他のモデルよりも2.1%向上している。
論文 参考訳(メタデータ) (2021-05-17T14:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。