論文の概要: Dual Correction Strategy for Ranking Distillation in Top-N Recommender
System
- arxiv url: http://arxiv.org/abs/2109.03459v1
- Date: Wed, 8 Sep 2021 07:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:34:02.863226
- Title: Dual Correction Strategy for Ranking Distillation in Top-N Recommender
System
- Title(参考訳): トップNレコメンダシステムにおけるランク付け蒸留の二重補正戦略
- Authors: Youngjune Lee and Kee-Eung Kim
- Abstract要約: 本稿では,知識蒸留のための二重補正戦略について述べる。
DCDは、より効率的な方法で、教師モデルから生徒モデルにランキング情報を転送する。
実験の結果,提案手法は最先端のベースラインよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 22.74997203575399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD), which transfers the knowledge of a well-trained
large model (teacher) to a small model (student), has become an important area
of research for practical deployment of recommender systems. Recently, Relaxed
Ranking Distillation (RRD) has shown that distilling the ranking information in
the recommendation list significantly improves the performance. However, the
method still has limitations in that 1) it does not fully utilize the
prediction errors of the student model, which makes the training not fully
efficient, and 2) it only distills the user-side ranking information, which
provides an insufficient view under the sparse implicit feedback. This paper
presents Dual Correction strategy for Distillation (DCD), which transfers the
ranking information from the teacher model to the student model in a more
efficient manner. Most importantly, DCD uses the discrepancy between the
teacher model and the student model predictions to decide which knowledge to be
distilled. By doing so, DCD essentially provides the learning guidance tailored
to "correcting" what the student model has failed to accurately predict. This
process is applied for transferring the ranking information from the user-side
as well as the item-side to address sparse implicit user feedback. Our
experiments show that the proposed method outperforms the state-of-the-art
baselines, and ablation studies validate the effectiveness of each component.
- Abstract(参考訳): 十分に訓練された大規模モデル(教師)の知識を小モデル(学生)に移す知識蒸留(kd)は、レコメンダシステムの実践的展開のための重要な研究分野となっている。
近年,リコメンデーションリストのランキング情報を蒸留することで,性能が著しく向上することが示された。
しかし,(1)生徒モデルの予測誤差を十分に活用せず,十分な効率性が得られず,(2)ユーザ側のランキング情報のみを抽出し,疎明な暗黙的フィードバック下でのビューを不十分にする,という制限がある。
本稿では,教師モデルから生徒モデルへのランキング情報をより効率的に伝達するDCD(Dual Correction Strategy for Distillation)を提案する。
最も重要なことは、DCDは教師モデルと生徒モデル予測の相違を利用して、どの知識を蒸留するかを決定することである。
そうすることによって、DCDは、学生モデルが正確に予測できなかったことを「修正」するために調整された学習指導を提供する。
このプロセスは、ユーザ側およびアイテム側からランキング情報を転送して、まばらな暗黙的なユーザフィードバックに対処するために適用される。
実験の結果,提案手法は最先端のベースラインよりも優れており,アブレーション実験により各コンポーネントの有効性が検証された。
関連論文リスト
- Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Adaptive Instance Distillation for Object Detection in Autonomous
Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
また,AIDは教師モデルの性能向上に有効であることが示された。
論文 参考訳(メタデータ) (2022-01-26T18:06:33Z) - DE-RRD: A Knowledge Distillation Framework for Recommender System [16.62204445256007]
DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。
これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。
実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-12-08T11:09:22Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。