論文の概要: DE-RRD: A Knowledge Distillation Framework for Recommender System
- arxiv url: http://arxiv.org/abs/2012.04357v1
- Date: Tue, 8 Dec 2020 11:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 20:51:51.732728
- Title: DE-RRD: A Knowledge Distillation Framework for Recommender System
- Title(参考訳): DE-RRD:Recommenderシステムのための知識蒸留フレームワーク
- Authors: SeongKu Kang, Junyoung Hwang, Wonbin Kweon, Hwanjo Yu
- Abstract要約: DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。
これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。
実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 16.62204445256007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent recommender systems have started to employ knowledge distillation,
which is a model compression technique distilling knowledge from a cumbersome
model (teacher) to a compact model (student), to reduce inference latency while
maintaining performance. The state-of-the-art methods have only focused on
making the student model accurately imitate the predictions of the teacher
model. They have a limitation in that the prediction results incompletely
reveal the teacher's knowledge. In this paper, we propose a novel knowledge
distillation framework for recommender system, called DE-RRD, which enables the
student model to learn from the latent knowledge encoded in the teacher model
as well as from the teacher's predictions. Concretely, DE-RRD consists of two
methods: 1) Distillation Experts (DE) that directly transfers the latent
knowledge from the teacher model. DE exploits "experts" and a novel expert
selection strategy for effectively distilling the vast teacher's knowledge to
the student with limited capacity. 2) Relaxed Ranking Distillation (RRD) that
transfers the knowledge revealed from the teacher's prediction with
consideration of the relaxed ranking orders among items. Our extensive
experiments show that DE-RRD outperforms the state-of-the-art competitors and
achieves comparable or even better performance to that of the teacher model
with faster inference time.
- Abstract(参考訳): 近年, 知識蒸留技術は, 複雑なモデル (教師) からコンパクトモデル (学生) に知識を蒸留するモデル圧縮技術であり, 性能を維持しつつ, 推論遅延を低減するために, 知識蒸留を取り入れている。
最先端の手法は,教師モデルの予測を正確に模倣する学習モデルにのみ焦点をあてている。
予測結果が教師の知識を不完全な形で明らかにすることには限界がある。
本稿では,教師モデルにエンコードされた潜在知識や教師の予測から生徒モデルを学ぶことを可能にする,レコメンダシステムのための新しい知識蒸留フレームワークde-rrdを提案する。
具体的には,1)教師モデルから潜伏知識を直接伝達する蒸留専門家(DE)の2つの方法からなる。
deは「専門家」と新しい専門家選択戦略を活用し、教師の膨大な知識を限られた能力で生徒に効果的に蒸留する。
2)緩和ランキング蒸留(rrd)は,各項目間の緩和順位を考慮した教師の予測から明らかになった知識を伝達する。
広範な実験により,de-rrdは最先端のコンペティタよりも優れており,より高速な推論時間で教師モデルと同等あるいはそれ以上のパフォーマンスを達成していることが示された。
関連論文リスト
- Improve Knowledge Distillation via Label Revision and Data Selection [37.74822443555646]
本稿では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。
後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を提案する。
実験の結果,提案手法の有効性を実証し,他の蒸留法と組み合わせることができることを示した。
論文 参考訳(メタデータ) (2024-04-03T02:41:16Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Learning Interpretation with Explainable Knowledge Distillation [28.00216413365036]
近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。
そこで本研究では,教師モデルから学生モデルに説明文の情報を伝達する,XDistillationと呼ばれる新しい知識蒸留モデルを提案する。
実験の結果,XDistillation で訓練したモデルは,予測精度および教師モデルへの忠実度の観点から,従来の KD 法で訓練したモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-11-12T21:18:06Z) - Dual Correction Strategy for Ranking Distillation in Top-N Recommender System [22.37864671297929]
本稿では,知識蒸留のための二重補正戦略について述べる。
DCDは、より効率的な方法で、教師モデルから生徒モデルにランキング情報を転送する。
実験の結果,提案手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-08T07:00:45Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。