論文の概要: Evaluating Uplift Modeling under Structural Biases: Insights into Metric Stability and Model Robustness
- arxiv url: http://arxiv.org/abs/2603.20775v1
- Date: Sat, 21 Mar 2026 11:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.0774
- Title: Evaluating Uplift Modeling under Structural Biases: Insights into Metric Stability and Model Robustness
- Title(参考訳): 構造的バイアス下における昇降力モデリングの評価:計量安定性とモデルロバスト性に着目して
- Authors: Yuxuan Yang, Dugang Liu, Yiyan Huang,
- Abstract要約: パーソナライズされたマーケティングにおいて、アップリフトモデルは、代替的な治療の下で顧客行動がどのように変化するかをモデル化することによって、漸進的な効果を推定する。
実世界のデータは、選択バイアス、こぼれ効果、未観測の混ざりなど、しばしばバイアスを示す。
- 参考スコア(独自算出の注目度): 8.135022024189306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In personalized marketing, uplift models estimate incremental effects by modeling how customer behavior changes under alternative treatments. However, real-world data often exhibit biases - such as selection bias, spillover effects, and unobserved confounding - which adversely affect both estimation accuracy and metric validity. Despite the importance of bias-aware assessment, a lack of systematic studies persists. To bridge this gap, we design a systematic benchmarking framework. Unlike standard predictive tasks, real-world uplift datasets lack counterfactual ground truth, rendering direct metric validation infeasible. Therefore, a semi-synthetic approach serves as a critical enabler for systematic benchmarking, effectively bridging the gap by retaining real-world feature dependencies while providing the ground truth needed to isolate structural biases. Our investigations reveal that: (i) uplift targeting and prediction can manifest as distinct objectives, where proficiency in one does not ensure efficacy in the other; (ii) while many models exhibit inconsistent performance under diverse biases, TARNet shows notable robustness, providing insights for subsequent model design; (iii) evaluation metric stability is linked to mathematical alignment with the ATE, suggesting that ATE-approximating metrics yield more consistent model rankings under structural data imperfections. These findings suggest the need for more robust uplift models and metrics. Code will be released upon acceptance.
- Abstract(参考訳): パーソナライズされたマーケティングにおいて、アップリフトモデルは、代替的な治療の下で顧客行動がどのように変化するかをモデル化することによって、漸進的な効果を推定する。
しかし、実世界のデータは、選択バイアス、こぼれ効果、観測不能なコンバウンディングなどのバイアスを示すことが多く、これは推定精度と測定精度の両方に悪影響を及ぼす。
バイアス・アウェア・アセスメントの重要性にもかかわらず、体系的な研究の欠如が続いている。
このギャップを埋めるために、我々は体系的なベンチマークフレームワークを設計する。
通常の予測タスクとは異なり、現実世界のアップリフトデータセットは反ファクト的な真実を欠き、直接の計量検証は不可能である。
したがって、半合成的なアプローチは、体系的なベンチマークのための重要なイネーブラーとして機能し、構造的バイアスを分離するために必要な基礎的真実を提供しながら、現実世界の特徴的依存関係を保ち、ギャップを効果的に埋める。
私たちの調査は、こう明らかにしています。
一 目標の引き上げ及び予測は、一方の熟練度が他方の効力を確実にしない目的として表すことができる。
(II)多くのモデルが多様なバイアスの下で不整合性能を示す一方で、TARNetは顕著な堅牢性を示し、その後のモデル設計に対する洞察を与えている。
3) 評価指標の安定性は ATE との数学的整合性と関連し, ATE 近似指標が構造データの不完全性の下でより一貫性のあるモデルランキングをもたらすことを示唆している。
これらの結果は、より堅牢なアップリフトモデルとメトリクスの必要性を示唆している。
コードは受理時にリリースされる。
関連論文リスト
- Intervention Efficiency and Perturbation Validation Framework: Capacity-Aware and Robust Clinical Model Selection under the Rashomon Effect [8.16102315566872]
同等のパフォーマンスを持つ複数のモデルの共存は、信頼できるデプロイメントと評価に根本的な課題をもたらします。
我々は,頑健なモデルアセスメントと選択のための2つの補完的ツールを提案する: 介入効率(IE)と摂動検証フレームワーク(PVF)。
IEはキャパシティを意識したメトリクスであり、限られた介入しか実現できない場合、モデルが実行可能な真の正をいかに効率的に識別するかを定量化する。
PVFは、データ摂動下でのモデルの安定性を評価するための構造化されたアプローチを導入し、ノイズやシフトした検証セット間で性能が最も不変なモデルを特定する。
論文 参考訳(メタデータ) (2025-11-18T10:21:07Z) - How NOT to benchmark your SITE metric: Beyond Static Leaderboards and Towards Realistic Evaluation [11.33816414982401]
伝達可能性推定メトリクスは、与えられた目標タスクに対して高い性能の事前訓練されたモデルを見つけるために使用される。
このようなメトリクスの開発に対する関心が高まっているにもかかわらず、彼らの進捗を測るベンチマークは、ほとんど検討されていない。
これらの指標が評価されるベンチマークには、根本的な欠陥がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-10-07T20:38:12Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion [1.2703808802607108]
知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されている。
標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
論文 参考訳(メタデータ) (2025-04-11T20:49:02Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。