論文の概要: KDSM: An uplift modeling framework based on knowledge distillation and
sample matching
- arxiv url: http://arxiv.org/abs/2303.02980v1
- Date: Mon, 6 Mar 2023 09:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:43:52.479444
- Title: KDSM: An uplift modeling framework based on knowledge distillation and
sample matching
- Title(参考訳): KDSM:知識蒸留とサンプルマッチングに基づく揚力モデリングフレームワーク
- Authors: Chang Sun, Qianying Li, Guanxiang Wang, Sihao Xu, Yitong Liu
- Abstract要約: 昇降モデリングは、個人に対する治療効果を推定することを目的としている。
木に基づく手法は増分と一般化に適しており、ニューラルネットベースのモデルは絶対値と精度の予測に優れている。
本稿では,知識蒸留とサンプルマッチング(KDSM)に基づくアップリフトモデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.036924568983982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uplift modeling aims to estimate the treatment effect on individuals, widely
applied in the e-commerce platform to target persuadable customers and maximize
the return of marketing activities. Among the existing uplift modeling methods,
tree-based methods are adept at fitting increment and generalization, while
neural-network-based models excel at predicting absolute value and precision,
and these advantages have not been fully explored and combined. Also, the lack
of counterfactual sample pairs is the root challenge in uplift modeling. In
this paper, we proposed an uplift modeling framework based on Knowledge
Distillation and Sample Matching (KDSM). The teacher model is the uplift
decision tree (UpliftDT), whose structure is exploited to construct
counterfactual sample pairs, and the pairwise incremental prediction is treated
as another objective for the student model. Under the idea of multitask
learning, the student model can achieve better performance on generalization
and even surpass the teacher. Extensive offline experiments validate the
universality of different combinations of teachers and student models and the
superiority of KDSM measured against the baselines. In online A/B testing, the
cost of each incremental room night is reduced by 6.5\%.
- Abstract(参考訳): uplift modelingは個人に対する治療効果を見積もることを目的としており、eコマースプラットフォームにおいて、説得力のある顧客をターゲットとし、マーケティング活動の再開を最大化するために広く適用されている。
既存のアップリフトモデリング手法では、木ベースの手法はインクリメントと一般化に適しており、ニューラルネットワークベースのモデルは絶対値と精度の予測に優れている。
また、逆実例ペアの欠如は、アップリフトモデリングの根本的課題である。
本稿では,知識蒸留とサンプルマッチング(KDSM)に基づくアップリフトモデリングフレームワークを提案する。
教師モデルはアップリフト決定木(UpliftDT)であり、その構造を利用して対実的なサンプルペアを構築し、対角的な漸進予測を学生モデルの別の目的として扱う。
マルチタスク学習の概念の下では、学生モデルは一般化におけるより良いパフォーマンスを達成でき、教師を超越することもできる。
広範なオフライン実験は、教師と学生モデルの異なる組み合わせの普遍性と、ベースラインに対して測定されたkdsmの優越性を検証する。
オンラインA/Bテストでは、各インクリメンタルルームナイトのコストは6.5\%削減される。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Enhancing One-Shot Federated Learning Through Data and Ensemble
Co-Boosting [76.64235084279292]
ワンショットフェデレートラーニング(One-shot Federated Learning, OFL)は,単一のコミュニケーションラウンドを通じてグローバルサーバモデルのトレーニングを可能にする,有望な学習パラダイムである。
合成されたデータとアンサンブルモデルを相互に拡張する新しいフレームワークであるCo-Boostingを導入する。
論文 参考訳(メタデータ) (2024-02-23T03:15:10Z) - DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - Uplift Modeling based on Graph Neural Network Combined with Causal
Knowledge [9.005051998738134]
本稿では、因果知識と昇降値の見積を組み合わせたグラフニューラルネットワークに基づくフレームワークを提案する。
本手法は, 典型的なシミュレーションデータに小さな誤差を伴って, 昇降値の予測に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T07:21:00Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language
Models [37.88287077119201]
PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation(KA)を提案する。
KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。
実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T12:26:24Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。