論文の概要: Orthogonal Uplift Learning with Permutation-Invariant Representations for Combinatorial Treatments
- arxiv url: http://arxiv.org/abs/2602.19851v1
- Date: Mon, 23 Feb 2026 13:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.837209
- Title: Orthogonal Uplift Learning with Permutation-Invariant Representations for Combinatorial Treatments
- Title(参考訳): 組合せ処理のための置換不変表現を用いた直交昇降学習
- Authors: Xinyan Su, Jiacan Gao, Mingyuan Ma, Xiao Xu, Xinrui Wan, Tianqi Gu, Enyun Yu, Jiecheng Guo, Zhiheng Zhang,
- Abstract要約: 隆起は介入による純粋に漸進的な因果効果を測定する。
本稿では,治療表現を因果意味論と整合させるアップリフト推定フレームワークを提案する。
大規模ランダム化プラットフォームデータに対する実験により、長期化政策体制における昇降精度と安定性が改善された。
- 参考スコア(独自算出の注目度): 9.596738570759168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study uplift estimation for combinatorial treatments. Uplift measures the pure incremental causal effect of an intervention (e.g., sending a coupon or a marketing message) on user behavior, modeled as a conditional individual treatment effect. Many real-world interventions are combinatorial: a treatment is a policy that specifies context-dependent action distributions rather than a single atomic label. Although recent work considers structured treatments, most methods rely on categorical or opaque encodings, limiting robustness and generalization to rare or newly deployed policies. We propose an uplift estimation framework that aligns treatment representation with causal semantics. Each policy is represented by the mixture it induces over contextaction components and embedded via a permutation-invariant aggregation. This representation is integrated into an orthogonalized low-rank uplift model, extending Robinson-style decompositions to learned, vector-valued treatments. We show that the resulting estimator is expressive for policy-induced causal effects, orthogonally robust to nuisance estimation errors, and stable under small policy perturbations. Experiments on large-scale randomized platform data demonstrate improved uplift accuracy and stability in long-tailed policy regimes
- Abstract(参考訳): 組合せ治療における昇降率推定法について検討した。
Upliftは、条件付き個別治療効果としてモデル化されたユーザー行動に対する介入(例えば、クーポンやマーケティングメッセージ)の純粋に漸進的な因果効果を測定する。
治療は、単一の原子ラベルではなく、文脈依存的な行動分布を特定するポリシーである。
最近の研究は構造化された処理を考慮しているが、ほとんどの手法は分類的あるいは不透明なエンコーディングに依存しており、ロバスト性や一般化はまれまたは新しくデプロイされたポリシーに限られている。
本稿では,治療表現を因果意味論と整合させるアップリフト推定フレームワークを提案する。
各ポリシは、コンテキストアクションコンポーネントを介して誘導される混合物で表現され、置換不変アグリゲーションを介して埋め込まれる。
この表現は直交化低ランク昇降モデルに統合され、ロビンソン式の分解を学習されたベクトル値の処理に拡張する。
得られた推定器は, 政策誘発因果効果, 直交的にニュアンス推定誤差に頑健であり, 小さな政策摂動下で安定であることを示す。
大規模ランダム化プラットフォームデータの実験により、長期的政策体制における昇降精度と安定性が改善された。
関連論文リスト
- Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Synthetic Blips: Generalizing Synthetic Controls for Dynamic Treatment Effects [15.164399074531234]
一般的な処理シーケンスで収集したパネルデータから単位特異的な処理効果を推定する。
実装が容易で,望ましい特性が得られる推定アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-10-20T04:11:20Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。
相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。
本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文 参考訳(メタデータ) (2021-05-11T16:02:39Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。