論文の概要: Unbiased Knowledge Distillation for Recommendation
- arxiv url: http://arxiv.org/abs/2211.14729v1
- Date: Sun, 27 Nov 2022 05:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:50:35.156865
- Title: Unbiased Knowledge Distillation for Recommendation
- Title(参考訳): 勧告のための不偏知識蒸留
- Authors: Gang Chen, Jiawei Chen, Fuli Feng, Sheng Zhou, Xiangnan He
- Abstract要約: 知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
- 参考スコア(独自算出の注目度): 66.82575287129728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a promising solution for model compression, knowledge distillation (KD)
has been applied in recommender systems (RS) to reduce inference latency.
Traditional solutions first train a full teacher model from the training data,
and then transfer its knowledge (\ie \textit{soft labels}) to supervise the
learning of a compact student model. However, we find such a standard
distillation paradigm would incur serious bias issue -- popular items are more
heavily recommended after the distillation. This effect prevents the student
model from making accurate and fair recommendations, decreasing the
effectiveness of RS.
In this work, we identify the origin of the bias in KD -- it roots in the
biased soft labels from the teacher, and is further propagated and intensified
during the distillation. To rectify this, we propose a new KD method with a
stratified distillation strategy. It first partitions items into multiple
groups according to their popularity, and then extracts the ranking knowledge
within each group to supervise the learning of the student. Our method is
simple and teacher-agnostic -- it works on distillation stage without affecting
the training of the teacher model. We conduct extensive theoretical and
empirical studies to validate the effectiveness of our proposal. We release our
code at: https://github.com/chengang95/UnKD.
- Abstract(参考訳): モデル圧縮のための有望なソリューションとして、推論遅延を低減するために知識蒸留(KD)が推奨システム(RS)に適用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルをトレーニングし、その知識(\ie \textit{soft labels})を変換して、コンパクトな学生モデルの学習を監督する。
しかし, このような標準的な蒸留パラダイムは, 蒸留後, 人気項目がより強く推奨され, 学生モデルが正確かつ公正な推薦を行うことを防ぎ, RSの有効性を低下させることで, KDのバイアスの起源を突き止めることによって, 教師の偏りのあるソフトラベルに根ざし, 蒸留期間中にさらに普及・強化されることが判明した。
そこで本研究では, 成層蒸留方式による新しいKD法を提案する。
まず、人気に応じてアイテムを複数のグループに分割し、各グループ内のランキング知識を抽出し、生徒の学習を監督する。
本手法は単純かつ教師に依存しないもので,教師モデルの訓練に影響を与えることなく蒸留段階で動作する。
本提案の有効性を検証するため, 広範な理論的, 実証的研究を行った。
コードはhttps://github.com/chengang95/unkd.com/でリリースします。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Improve Knowledge Distillation via Label Revision and Data Selection [37.74822443555646]
本稿では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。
後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を提案する。
実験の結果,提案手法の有効性を実証し,他の蒸留法と組み合わせることができることを示した。
論文 参考訳(メタデータ) (2024-04-03T02:41:16Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss [32.816725317261934]
本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
論文 参考訳(メタデータ) (2023-03-10T14:46:23Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Dual Correction Strategy for Ranking Distillation in Top-N Recommender System [22.37864671297929]
本稿では,知識蒸留のための二重補正戦略について述べる。
DCDは、より効率的な方法で、教師モデルから生徒モデルにランキング情報を転送する。
実験の結果,提案手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-08T07:00:45Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。