論文の概要: Preference-Consistent Knowledge Distillation for Recommender System
- arxiv url: http://arxiv.org/abs/2311.04549v2
- Date: Mon, 13 Jan 2025 09:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:20:23.034788
- Title: Preference-Consistent Knowledge Distillation for Recommender System
- Title(参考訳): レコメンダシステムにおける参照一貫性のある知識蒸留
- Authors: Zhangchi Zhu, Wei Zhang,
- Abstract要約: プロジェクタの制約が欠如しているため、ユーザの好みを転送するプロセスが妨げられる可能性が高い。
プロジェクタの2つの正規化項からなるPCKDを提案する。
選好スコアの高い項目に着目し, 選好の不整合を著しく軽減し, 特徴量に基づく知識蒸留の性能向上を図る。
- 参考スコア(独自算出の注目度): 4.1752785943044985
- License:
- Abstract: Feature-based knowledge distillation has been applied to compress modern recommendation models, usually with projectors that align student (small) recommendation models' dimensions with teacher dimensions. However, existing studies have only focused on making the projected features (i.e., student features after projectors) similar to teacher features, overlooking investigating whether the user preference can be transferred to student features (i.e., student features before projectors) in this manner. In this paper, we find that due to the lack of restrictions on projectors, the process of transferring user preferences will likely be interfered with. We refer to this phenomenon as preference inconsistency. It greatly wastes the power of feature-based knowledge distillation. To mitigate preference inconsistency, we propose PCKD, which consists of two regularization terms for projectors. We also propose a hybrid method that combines the two regularization terms. We focus on items with high preference scores and significantly mitigate preference inconsistency, improving the performance of feature-based knowledge distillation. Extensive experiments on three public datasets and three backbones demonstrate the effectiveness of PCKD. The code of our method is provided in https://github.com/woriazzc/KDs.
- Abstract(参考訳): 特徴に基づく知識蒸留は現代のレコメンデーションモデルを圧縮するために応用され、通常は学生(小)レコメンデーションモデルの次元を教師の次元に合わせるプロジェクターを用いている。
しかし、既存の研究では、投影された特徴(つまり、プロジェクター以降の学生特徴)を教師の特徴に類似させることにのみ焦点をあてており、この方法でユーザの好みを学生特徴(すなわち、プロジェクター以前の学生特徴)に移行できるかどうかを見極めている。
本稿では,プロジェクタの制約が欠如しているため,ユーザの好みを伝達するプロセスが阻害されることが予想される。
我々はこの現象を選好不整合と呼ぶ。
特徴に基づく知識蒸留の力を大幅に無駄にする。
そこで本稿では,プロジェクタの2つの正規化項からなるPCKDを提案する。
また,2つの正規化項を組み合わせたハイブリッド手法を提案する。
選好スコアの高い項目に着目し, 選好の不整合を著しく軽減し, 特徴量に基づく知識蒸留の性能向上を図る。
3つの公開データセットと3つのバックボーンに関する大規模な実験は、PCKDの有効性を実証している。
我々のメソッドのコードはhttps://github.com/woriazzc/KDsで提供されている。
関連論文リスト
- Dual Test-time Training for Out-of-distribution Recommender System [91.15209066874694]
DT3ORと呼ばれるOODレコメンデーションのための新しいDual Test-Time-Trainingフレームワークを提案する。
DT3ORでは、テスト期間中にモデル適応機構を導入し、リコメンデーションモデルを慎重に更新する。
我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
論文 参考訳(メタデータ) (2024-07-22T13:27:51Z) - Understanding the Effects of Projectors in Knowledge Distillation [31.882356225974632]
学生と教師が同じ特徴次元を持つ場合でも、プロジェクターを追加することで蒸留性能が向上する。
本稿では、プロジェクターが果たす暗黙の役割について検討するが、これまで見過ごされてきた。
プロジェクターの正の効果に感化されて, プロジェクターアンサンブルを用いた特徴蒸留法を提案し, 蒸留性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-26T06:30:39Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Understanding the Role of the Projector in Knowledge Distillation [22.698845243751293]
機能マッチングとメートル法学習問題としての知識蒸留の有効性を再考する。
我々は3つの重要な設計決定、すなわち正規化、ソフト最大関数、投影層を検証する。
ImageNetのDeiT-Tiで、77.2%のトップ1の精度を実現しました。
論文 参考訳(メタデータ) (2023-03-20T13:33:31Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Improved Feature Distillation via Projector Ensemble [40.86679028635297]
本稿では,プロジェクタアンサンブルに基づく新しい特徴蒸留法を提案する。
学生と教師の特徴次元が同じであっても,学生ネットワークはプロジェクタから恩恵を受ける。
本研究では,学生の特徴の質を高めるために,プロジェクタのアンサンブルを提案する。
論文 参考訳(メタデータ) (2022-10-27T09:08:40Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Distillation with the Reused Teacher Classifier [31.22117343316628]
簡単な知識蒸留技術では,教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
提案手法は, プロジェクタの追加による圧縮率の最小コストで, 最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-26T06:28:46Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。