論文の概要: Flexible and Efficient Contextual Bandits with Heterogeneous Treatment
Effect Oracle
- arxiv url: http://arxiv.org/abs/2203.16668v1
- Date: Wed, 30 Mar 2022 20:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 10:26:08.609881
- Title: Flexible and Efficient Contextual Bandits with Heterogeneous Treatment
Effect Oracle
- Title(参考訳): Oracleの不均一処理によるフレキシブルで効率的なコンテキスト帯域
- Authors: Aldo Gael Carranza, Sanath Kumar Krishnamurthy, Susan Athey
- Abstract要約: 異種処理効果推定オラクルを用いた統計的に最適で計算効率の良いアルゴリズムを設計する。
本研究は, 汎用的不均一処理効果推定法に対して, 文脈的帯域幅を普遍的に低減した最初の方法である。
提案手法は,2乗誤差回帰オラクルに基づく報酬推定法よりも,誤特定をモデル化する方が堅牢であることを示す。
- 参考スコア(独自算出の注目度): 12.906249996227904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many popular contextual bandit algorithms estimate reward models to inform
decision making. However, true rewards can contain action-independent
redundancies that are not relevant for decision making and only increase the
statistical complexity of accurate estimation. It is sufficient and more
data-efficient to estimate the simplest function that explains the reward
differences between actions, that is, the heterogeneous treatment effect,
commonly understood to be more structured and simpler than the reward.
Motivated by this observation, building on recent work on oracle-based
algorithms, we design a statistically optimal and computationally efficient
algorithm using heterogeneous treatment effect estimation oracles. Our results
provide the first universal reduction of contextual bandits to a
general-purpose heterogeneous treatment effect estimation method. We show that
our approach is more robust to model misspecification than reward estimation
methods based on squared error regression oracles. Experimentally, we show the
benefits of heterogeneous treatment effect estimation in contextual bandits
over reward estimation.
- Abstract(参考訳): 多くの一般的なコンテキストバンディットアルゴリズムは、意思決定に報奨モデルを見積もる。
しかし、真の報酬は、意思決定に関係のない行動非依存の冗長性を含み、正確な推定の統計的複雑さを増大させるだけである。
アクション間の報酬差を説明する最も単純な関数、すなわち不均質な処理効果を推定するのは、報奨よりも構造化され、よりシンプルであると一般的に理解されている。
この観察により、近年のオラクルベースのアルゴリズムの研究に基づいて、異種処理効果推定オラクルを用いた統計的に最適で計算効率の高いアルゴリズムを設計した。
以上の結果から, 汎用的異種処理効果推定法にコンテクストバンディットを初めて普遍的に還元した。
提案手法は,二乗誤差回帰オラクルに基づく報酬推定手法よりも誤特定のモデル化に頑健であることを示す。
実験では,報奨評価よりもコンテキストバンディットにおける不均質な処理効果推定の利点を示す。
関連論文リスト
- Estimating Distributional Treatment Effects in Randomized Experiments: Machine Learning for Variance Reduction [6.909352249236339]
ランダム化実験における分散処理効果パラメータを推定するための新しい回帰調整法を提案する。
提案手法では,事前処理による協調処理を分散回帰フレームワークに組み込み,機械学習技術を用いて分散処理効果推定器の精度を向上させる。
論文 参考訳(メタデータ) (2024-07-22T20:28:29Z) - Distributed High-Dimensional Quantile Regression: Estimation Efficiency and Support Recovery [0.0]
我々は高次元線形量子レグレッションのための分散推定とサポート回復に焦点をあてる。
元の量子レグレッションを最小二乗最適化に変換する。
効率的なアルゴリズムを開発し、高い計算と通信効率を享受する。
論文 参考訳(メタデータ) (2024-05-13T08:32:22Z) - Efficient adjustment for complex covariates: Gaining efficiency with
DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。
理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。
その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-20T13:02:51Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Proximal Causal Learning of Conditional Average Treatment Effects [0.0]
異種治療効果を学習するための2段階損失関数を提案する。
提案手法は,市販の損失最小化機械学習手法により実装できる。
論文 参考訳(メタデータ) (2023-01-26T02:56:36Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Almost-Matching-Exactly for Treatment Effect Estimation under Network
Interference [73.23326654892963]
本研究では,観測ネットワーク上でユニットが接続されたランダム化実験から直接処理効果を回復するマッチング手法を提案する。
本手法は, 近傍グラフ内の一意部分グラフの個数にほぼ一致する。
論文 参考訳(メタデータ) (2020-03-02T15:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。