論文の概要: Rejuvenating Cross-Entropy Loss in Knowledge Distillation for Recommender Systems
- arxiv url: http://arxiv.org/abs/2509.20989v1
- Date: Thu, 25 Sep 2025 10:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.8448
- Title: Rejuvenating Cross-Entropy Loss in Knowledge Distillation for Recommender Systems
- Title(参考訳): リコメンダシステムにおける知識蒸留におけるクロスエントロピー損失の回復
- Authors: Zhangchi Zhu, Wei Zhang,
- Abstract要約: 本稿では,レコメンダシステムにおける知識蒸留(KD)のクロスエントロピー(CE)損失を分析した。
アイテムサブセット上でKDを実行する場合、CE損失を最小限に抑えることで、NDCGの下位境界が最大になることを示す。
知識蒸留のための共役クロストロピー(RCE-KD)を提案する。
- 参考スコア(独自算出の注目度): 5.68373404216548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes Cross-Entropy (CE) loss in knowledge distillation (KD) for recommender systems. KD for recommender systems targets at distilling rankings, especially among items most likely to be preferred, and can only be computed on a small subset of items. Considering these features, we reveal the connection between CE loss and NDCG in the field of KD. We prove that when performing KD on an item subset, minimizing CE loss maximizes the lower bound of NDCG, only if an assumption of closure is satisfied. It requires that the item subset consists of the student's top items. However, this contradicts our goal of distilling rankings of the teacher's top items. We empirically demonstrate the vast gap between these two kinds of top items. To bridge the gap between our goal and theoretical support, we propose Rejuvenated Cross-Entropy for Knowledge Distillation (RCE-KD). It splits the top items given by the teacher into two subsets based on whether they are highly ranked by the student. For the subset that defies the condition, a sampling strategy is devised to use teacher-student collaboration to approximate our assumption of closure. We also combine the losses on the two subsets adaptively. Extensive experiments demonstrate the effectiveness of our method. Our code is available at https://anonymous.4open.science/r/RCE-KD.
- Abstract(参考訳): 本稿では,レコメンダシステムにおける知識蒸留(KD)のクロスエントロピー(CE)損失を分析した。
推奨システムのKDは、特に好まれるアイテムのうち、ランキングを蒸留するターゲットであり、少数のアイテムでしか計算できない。
これらの特徴から,KD分野におけるCE損失とNDCGの関係を明らかにする。
アイテムサブセット上でKDを実行する場合、CE損失を最小限に抑えれば、クロージャの仮定が満たされた場合に限り、NDCGの下位境界が最大になることを示す。
アイテムサブセットは、学生のトップアイテムで構成されている必要があります。
しかし、これは教師のトップ項目のランク付けを蒸留するという私たちの目標とは矛盾する。
われわれはこの2種類のトップアイテムの間に大きなギャップがあることを実証的に示す。
目的と理論的支援のギャップを埋めるために,知識蒸留のための共役クロストロピー(RCE-KD)を提案する。
教師が与える上位の項目は、生徒が高度にランク付けしているかどうかに基づいて2つのサブセットに分けられる。
条件に反するサブセットに対しては,教師と学生の協調を利用して閉会の仮定を近似するサンプリング戦略が考案された。
また、2つのサブセットの損失を適応的に組み合わせます。
大規模な実験により,本手法の有効性が示された。
私たちのコードはhttps://anonymous.4open.science/r/RCE-KDで公開されています。
関連論文リスト
- Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Bridging Cross-task Protocol Inconsistency for Distillation in Dense
Object Detection [19.07452370081663]
本研究では,高密度物体検出に適したクロスタスク一貫したプロトコルを用いた新しい蒸留法を提案する。
分類蒸留では,教師モデルと学生モデルの両方の分類ロジットマップを複数の二分分類マップとして定式化し,各地図に二分分類蒸留損失を適用した。
提案手法は単純だが有効であり,既存の手法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-08-28T03:57:37Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation [74.67594286008317]
本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。
本稿では,点レベルとボクセルレベルの両方から隠れた知識を伝達するPVDを提案する。
論文 参考訳(メタデータ) (2022-06-05T05:28:32Z) - Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。