論文の概要: Deep Proxy Causal Learning and its Application to Confounded Bandit
Policy Evaluation
- arxiv url: http://arxiv.org/abs/2106.03907v4
- Date: Mon, 19 Feb 2024 23:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 22:06:58.427836
- Title: Deep Proxy Causal Learning and its Application to Confounded Bandit
Policy Evaluation
- Title(参考訳): 深部プロキシ因果学習とバンドポリシー評価への活用
- Authors: Liyuan Xu, Heishiro Kanagawa, Arthur Gretton
- Abstract要約: プロキシ因果学習(英: Proxy causal learning、PCL)は、治療の因果効果を未観察の結束の有無で推定する方法である。
そこで本研究では,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。
- 参考スコア(独自算出の注目度): 29.753131168711107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proxy causal learning (PCL) is a method for estimating the causal effect of
treatments on outcomes in the presence of unobserved confounding, using proxies
(structured side information) for the confounder. This is achieved via
two-stage regression: in the first stage, we model relations among the
treatment and proxies; in the second stage, we use this model to learn the
effect of treatment on the outcome, given the context provided by the proxies.
PCL guarantees recovery of the true causal effect, subject to identifiability
conditions. We propose a novel method for PCL, the deep feature proxy variable
method (DFPV), to address the case where the proxies, treatments, and outcomes
are high-dimensional and have nonlinear complex relationships, as represented
by deep neural network features. We show that DFPV outperforms recent
state-of-the-art PCL methods on challenging synthetic benchmarks, including
settings involving high dimensional image data. Furthermore, we show that PCL
can be applied to off-policy evaluation for the confounded bandit problem, in
which DFPV also exhibits competitive performance.
- Abstract(参考訳): プロキシ因果学習 (proxy causal learning, pcl) は、共同設立者のプロキシ(構造化側情報)を用いて、観察されていない共同研究の存在下での成果に対する治療の因果効果を推定する手法である。
第1段階では、治療とプロキシの関係をモデル化し、第2段階では、プロキシによって提供されるコンテキストを考慮して、治療が結果に与える影響を学習するためにこのモデルを使用します。
pclは同一性条件下で真の因果効果の回復を保証する。
深部ニューラルネットワークの特徴によって表現されるような,高次元かつ非線形な複雑な関係を持つプロキシ,治療,結果を扱うため,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。
DFPVは,高次元画像データを含む設定を含む,最新のPCL法よりも高い性能を示すことを示す。
さらに, DFPV が競合性能を示す包括的バンディット問題に対して, PCL を非政治的評価に適用できることが示唆された。
関連論文リスト
- The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Recovering Latent Confounders from High-dimensional Proxy Variables [4.273372609646382]
本稿では, 連続処理効果推定のための新しいProxy Confounder Factorization (PCF) フレームワークを提案する。
特定サンプルサイズについては,独立成分分析(ICA-PCF)を用いた2段階PCF実装と,GD-PCF(Gradient Descent)を用いたエンドツーエンド実装により,潜在共同設立者と高い相関関係が得られた。
ICA-PCFは気候データに直面しても、北大西洋振動の75.9%のばらつきを説明する4つの成分を回収する。
論文 参考訳(メタデータ) (2024-03-21T08:39:13Z) - Estimation of individual causal effects in network setup for multiple
treatments [4.53340898566495]
個別治療効果 (ITE) の推定問題について, 複数の治療と観察データを用いて検討した。
我々は、共同創設者の共有表現を学ぶために、Graph Convolutional Networks(GCN)を採用しています。
アプローチでは、個別のニューラルネットワークを使用して、各治療の潜在的な結果を推測する。
論文 参考訳(メタデータ) (2023-12-18T06:07:45Z) - Adversarially Balanced Representation for Continuous Treatment Effect
Estimation [6.469020202994118]
本稿では,この処理が連続変数である,より実践的で困難なシナリオについて考察する。
本稿では,KL分散の表現の不均衡を対角的に最小化する対向反事実回帰ネットワーク(ACFR)を提案する。
半合成データセットに対する実験的な評価は、ACFRの最先端手法に対する経験的優位性を実証するものである。
論文 参考訳(メタデータ) (2023-12-17T00:46:16Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Kernel Single Proxy Control for Deterministic Confounding [32.70182383946395]
結果が確定的に生成される場合,一つのプロキシ変数が因果推定に十分であることを示す。
我々は、挑戦的な合成ベンチマークにおいて因果効果を回復できることを実証し、実証的に証明する。
論文 参考訳(メタデータ) (2023-08-08T21:11:06Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Deep Metric Learning with Soft Orthogonal Proxies [1.823505080809275]
本稿では,プロキシにソフト直交性(SO)制約を導入する新しいアプローチを提案する。
提案手法では,DMLの目的と合わせて,画像からコンテキスト特徴を抽出するエンコーダとして,データ効率の良い画像変換器(DeiT)を利用する。
提案手法が最先端手法よりも有意なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-06-22T17:22:15Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。