論文の概要: Direct Profit Estimation Using Uplift Modeling under Clustered Network Interference
- arxiv url: http://arxiv.org/abs/2509.01558v1
- Date: Mon, 01 Sep 2025 15:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.754032
- Title: Direct Profit Estimation Using Uplift Modeling under Clustered Network Interference
- Title(参考訳): クラスタ型ネットワーク干渉下での昇降モデルによる直接利益推定
- Authors: Bram van den Akker,
- Abstract要約: 昇降モデリングはレコメンデータシステムにおける促進最適化の鍵となる手法である。
付加的逆不等度重み付けのような干渉認識型推定器の最近の発展は、まだ隆起モデリング文学への道を見いだせていない。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uplift modeling is a key technique for promotion optimization in recommender systems, but standard methods typically fail to account for interference, where treating one item affects the outcomes of others. This violation of the Stable Unit Treatment Value Assumption (SUTVA) leads to suboptimal policies in real-world marketplaces. Recent developments in interference-aware estimators such as Additive Inverse Propensity Weighting (AddIPW) have not found their way into the uplift modeling literature yet, and optimising policies using these estimators is not well-established. This paper proposes a practical methodology to bridge this gap. We use the AddIPW estimator as a differentiable learning objective suitable for gradient-based optimization. We demonstrate how this framework can be integrated with proven response transformation techniques to directly optimize for economic outcomes like incremental profit. Through simulations, we show that our approach significantly outperforms interference-naive methods, especially as interference effects grow. Furthermore, we find that adapting profit-centric uplift strategies within our framework can yield superior performance in identifying the highest-impact interventions, offering a practical path toward more profitable incentive personalization.
- Abstract(参考訳): アップリフトモデリングはレコメンデータシステムにおけるプロモーション最適化の鍵となる手法であるが、標準的な手法では通常は干渉を考慮せず、1つのアイテムが他のアイテムの結果に影響を与える。
このSUTVA(Stable Unit Treatment Value Assumption)の違反は、現実世界の市場における準最適政策に繋がる。
近年,AddIPW (Aditive Inverse Propensity Weighting) のような干渉を考慮した推定器の開発が進んでいない。
本稿では,このギャップを埋める実践的手法を提案する。
我々は、勾配に基づく最適化に適した微分学習目的としてAddIPW推定器を用いる。
我々は、このフレームワークを実証された応答変換技術と統合して、インクリメンタル利益のような経済的成果を直接最適化する方法を実証する。
シミュレーションにより,特に干渉効果が増大するにつれて,本手法は干渉誘導法よりも有意に優れることが示された。
さらに、我々の枠組みにおける収益中心の昇給戦略の適用は、最もインパクトの高い介入を特定する上で優れたパフォーマンスをもたらし、より利益の高いインセンティブのパーソナライゼーションに向けた実践的な道筋を提供する。
関連論文リスト
- PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning [5.922794597824468]
本稿では,アドバンスト参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-28T09:18:26Z) - Heterogeneous Causal Learning for Optimizing Aggregated Functions in User Growth [0.7100520098029438]
本稿では,ユーザ成長マーケティングを強化するために,新しい処理効果最適化手法を提案する。
ディープラーニングを活用することで,過去の実験から学習し,ユーザの選択と報酬配分を最適化する。
提案した制約付きおよび直接最適化アルゴリズムは,最先端の手法よりも20%以上優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-07T22:08:45Z) - Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO [19.5712961932773]
我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。
PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T10:23:22Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Metalearners for Ranking Treatment Effects [1.469168639465869]
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T15:31:18Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。