論文の概要: Benchmarking for Deep Uplift Modeling in Online Marketing
- arxiv url: http://arxiv.org/abs/2406.00335v1
- Date: Sat, 1 Jun 2024 07:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:34:33.660209
- Title: Benchmarking for Deep Uplift Modeling in Online Marketing
- Title(参考訳): オンラインマーケティングにおけるDeep Uplift Modelingのためのベンチマーク
- Authors: Dugang Liu, Xing Tang, Yang Qiao, Miao Liu, Zexu Sun, Xiuqiang He, Zhong Ming,
- Abstract要約: 将来性のある手法としての深層揚力モデリング(DUM)は、アカデミアや産業界からの研究を惹きつけている。
現在のDUMには、標準化されたベンチマークと統一された評価プロトコルがまだ欠けている。
DUMのオープンベンチマークと既存モデルとの比較結果を再現可能で均一な方法で提示する。
- 参考スコア(独自算出の注目度): 17.70084353772874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online marketing is critical for many industrial platforms and business applications, aiming to increase user engagement and platform revenue by identifying corresponding delivery-sensitive groups for specific incentives, such as coupons and bonuses. As the scale and complexity of features in industrial scenarios increase, deep uplift modeling (DUM) as a promising technique has attracted increased research from academia and industry, resulting in various predictive models. However, current DUM still lacks some standardized benchmarks and unified evaluation protocols, which limit the reproducibility of experimental results in existing studies and the practical value and potential impact in this direction. In this paper, we provide an open benchmark for DUM and present comparison results of existing models in a reproducible and uniform manner. To this end, we conduct extensive experiments on two representative industrial datasets with different preprocessing settings to re-evaluate 13 existing models. Surprisingly, our experimental results show that the most recent work differs less than expected from traditional work in many cases. In addition, our experiments also reveal the limitations of DUM in generalization, especially for different preprocessing and test distributions. Our benchmarking work allows researchers to evaluate the performance of new models quickly but also reasonably demonstrates fair comparison results with existing models. It also gives practitioners valuable insights into often overlooked considerations when deploying DUM. We will make this benchmarking library, evaluation protocol, and experimental setup available on GitHub.
- Abstract(参考訳): オンラインマーケティングは多くの産業用プラットフォームやビジネスアプリケーションにとって重要であり、クーポンやボーナスなどの特定のインセンティブに対して、対応する配送に敏感なグループを特定することによって、ユーザーエンゲージメントとプラットフォーム収益を高めることを目指している。
産業シナリオの特徴の規模と複雑さが増大するにつれて、将来性のある技術としての深層揚力モデリング(DUM)は、学術や産業からの研究を惹きつけ、様々な予測モデルを生み出している。
しかし、現在のDUMには標準化されたベンチマークと統一された評価プロトコルが欠けているため、既存の研究における実験結果の再現性や、この方向における実用的価値と潜在的影響が制限されている。
本稿では、DUMのオープンベンチマークと、既存モデルとの比較結果を再現可能で均一な方法で提示する。
この目的のために、我々は、13の既存モデルを再評価するために、異なる前処理設定を持つ2つの代表的な産業データセットに対して広範な実験を行う。
意外なことに,我々の実験結果から,近年の成果が従来の成果よりも少ないことが判明した。
さらに,本実験では,DUMの一般化における限界,特に前処理とテスト分布の差異も明らかにした。
我々のベンチマーク研究は、研究者が新しいモデルの性能を迅速に評価することを可能にするだけでなく、既存のモデルと公正に比較した結果を合理的に示す。
また、DUMをデプロイする際の見過ごされがちな考慮に対して、実践者が貴重な洞察を与える。
このベンチマークライブラリ、評価プロトコル、実験的なセットアップをGitHubで公開します。
関連論文リスト
- Challenging reaction prediction models to generalize to novel chemistry [12.33727805025678]
本稿では,SMILESに基づく深層学習モデルの一連の評価について報告する。
まず、ランダムにサンプリングされたデータセットのパフォーマンスが、新しい特許や新しい著者に一般化する際のパフォーマンスと比べて、過度に楽観的であることを示す。
第二に、トレーニングセットの何年にもわたってテストされたモデルがどのように機能するかを評価する時間分割を実施し、実際のデプロイメントを模倣します。
論文 参考訳(メタデータ) (2025-01-11T23:49:14Z) - Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Operationalizing Specifications, In Addition to Test Sets for Evaluating
Constrained Generative Models [17.914521288548844]
生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。
我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
論文 参考訳(メタデータ) (2022-11-19T06:39:43Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - BARS-CTR: Open Benchmarking for Click-Through Rate Prediction [30.000261789268063]
クリックスルー率(CTR)予測は多くのアプリケーションにとって重要なタスクである。
近年、CTR予測は学術と産業の両方で広く研究されている。
CTR予測研究には、標準化されたベンチマークと一様評価プロトコルがまだ欠けている。
論文 参考訳(メタデータ) (2020-09-12T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。