論文の概要: Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2211.11159v1
- Date: Mon, 21 Nov 2022 03:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 23:03:40.433861
- Title: Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation
- Title(参考訳): 知識蒸留によるCTR予測のための非巡回非巡回グラフ因子化装置
- Authors: Zhen Tian, Ting Bai, Zibin Zhang, Zhiyuan Xu, Kangyi Lin, Ji-Rong Wen
and Wayne Xin Zhao
- Abstract要約: 本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
- 参考スコア(独自算出の注目度): 65.62538699160085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growth of high-dimensional sparse data in web-scale recommender
systems, the computational cost to learn high-order feature interaction in CTR
prediction task largely increases, which limits the use of high-order
interaction models in real industrial applications. Some recent knowledge
distillation based methods transfer knowledge from complex teacher models to
shallow student models for accelerating the online model inference. However,
they suffer from the degradation of model accuracy in knowledge distillation
process. It is challenging to balance the efficiency and effectiveness of the
shallow student models. To address this problem, we propose a Directed Acyclic
Graph Factorization Machine (KD-DAGFM) to learn the high-order feature
interactions from existing complex interaction models for CTR prediction via
Knowledge Distillation. The proposed lightweight student model DAGFM can learn
arbitrary explicit feature interactions from teacher networks, which achieves
approximately lossless performance and is proved by a dynamic programming
algorithm. Besides, an improved general model KD-DAGFM+ is shown to be
effective in distilling both explicit and implicit feature interactions from
any complex teacher model. Extensive experiments are conducted on four
real-world datasets, including a large-scale industrial dataset from WeChat
platform with billions of feature dimensions. KD-DAGFM achieves the best
performance with less than 21.5% FLOPs of the state-of-the-art method on both
online and offline experiments, showing the superiority of DAGFM to deal with
the industrial scale data in CTR prediction task. Our implementation code is
available at: https://github.com/RUCAIBox/DAGFM.
- Abstract(参考訳): ウェブスケールレコメンデータシステムにおける高次元スパースデータの増大に伴い、CTR予測タスクにおける高次特徴相互作用を学習するための計算コストが大きく増加し、実際の産業アプリケーションにおける高次相互作用モデルの使用が制限される。
最近の知識蒸留法では, 複雑な教員モデルから浅い生徒モデルへ知識を移し, オンラインモデル推論を促進させている。
しかし、彼らは知識蒸留過程におけるモデルの精度の低下に苦しむ。
浅い生徒モデルの効率性と有効性をバランスさせることは困難である。
この問題に対処するために,既存の複雑な相互作用モデルから知識蒸留によるCTR予測のための高次特徴相互作用を学習するための,方向付き非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
提案した軽量学生モデルDAGFMは、教師ネットワークから任意の明示的な特徴相互作用を学習し、ほぼ損失のない性能を達成し、動的プログラミングアルゴリズムによって証明される。
さらに、改良された一般モデルKD-DAGFM+は、あらゆる複雑な教師モデルから明示的および暗黙的な特徴相互作用を蒸留するのに有効であることが示されている。
大規模な実験は、WeChatプラットフォームからの大規模産業データセットを含む4つの実世界のデータセットで実施されている。
KD-DAGFMは、オンラインとオフラインの両方の実験において21.5%のFLOPで最高の性能を達成し、CTR予測タスクにおける産業規模データを扱う上でのDAGFMの優位性を示している。
実装コードはhttps://github.com/rucaibox/dagfm.com/。
関連論文リスト
- Feature Interaction Fusion Self-Distillation Network For CTR Prediction [14.12775753361368]
CTR(Click-Through Rate)予測は、レコメンデーターシステム、オンライン広告、検索エンジンにおいて重要な役割を果たす。
プラグ・アンド・プレイ融合自己蒸留モジュールを組み込んだCTR予測フレームワークであるFSDNetを提案する。
論文 参考訳(メタデータ) (2024-11-12T03:05:03Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - Distill2Vec: Dynamic Graph Representation Learning with Knowledge
Distillation [4.568777157687959]
訓練可能なパラメータの少ないコンパクトなモデルを学習するための知識蒸留手法であるDistill2Vecを提案する。
公開データセットを用いた実験は、いくつかの最先端アプローチよりも提案したモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T09:49:24Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。