Fugu-MT 論文翻訳(概要): Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation

論文の概要: Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation

arxiv url: http://arxiv.org/abs/2106.03907v4
Date: Mon, 19 Feb 2024 23:35:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 22:06:58.427836
Title: Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation
Title（参考訳）: 深部プロキシ因果学習とバンドポリシー評価への活用
Authors: Liyuan Xu, Heishiro Kanagawa, Arthur Gretton
Abstract要約: プロキシ因果学習(英: Proxy causal learning、PCL)は、治療の因果効果を未観察の結束の有無で推定する方法である。そこで本研究では,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。
参考スコア（独自算出の注目度）: 29.753131168711107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Proxy causal learning (PCL) is a method for estimating the causal effect of treatments on outcomes in the presence of unobserved confounding, using proxies (structured side information) for the confounder. This is achieved via two-stage regression: in the first stage, we model relations among the treatment and proxies; in the second stage, we use this model to learn the effect of treatment on the outcome, given the context provided by the proxies. PCL guarantees recovery of the true causal effect, subject to identifiability conditions. We propose a novel method for PCL, the deep feature proxy variable method (DFPV), to address the case where the proxies, treatments, and outcomes are high-dimensional and have nonlinear complex relationships, as represented by deep neural network features. We show that DFPV outperforms recent state-of-the-art PCL methods on challenging synthetic benchmarks, including settings involving high dimensional image data. Furthermore, we show that PCL can be applied to off-policy evaluation for the confounded bandit problem, in which DFPV also exhibits competitive performance.
Abstract（参考訳）: プロキシ因果学習 (proxy causal learning, pcl) は、共同設立者のプロキシ(構造化側情報)を用いて、観察されていない共同研究の存在下での成果に対する治療の因果効果を推定する手法である。第1段階では、治療とプロキシの関係をモデル化し、第2段階では、プロキシによって提供されるコンテキストを考慮して、治療が結果に与える影響を学習するためにこのモデルを使用します。 pclは同一性条件下で真の因果効果の回復を保証する。深部ニューラルネットワークの特徴によって表現されるような,高次元かつ非線形な複雑な関係を持つプロキシ,治療,結果を扱うため,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。 DFPVは,高次元画像データを含む設定を含む,最新のPCL法よりも高い性能を示すことを示す。さらに, DFPV が競合性能を示す包括的バンディット問題に対して, PCL を非政治的評価に適用できることが示唆された。

関連論文リスト

Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文参考訳（メタデータ） (2025-08-01T15:23:15Z)
Density Ratio-Free Doubly Robust Proxy Causal Learning [27.890635192855846]
Proxy Causal Learning frameworkにおける因果関数推定の問題について検討する。結果ブリッジ法と治療ブリッジ法という2つの主要なアプローチが提案されている。両手法の強みを組み合わせた2つのカーネルベースの二重頑健な推定器を提案する。
論文参考訳（メタデータ） (2025-05-26T10:44:26Z)
Density Ratio-based Proxy Causal Learning Without Density Ratios [26.49087216375106]
本稿では,隠れた共起の存在下で観測データから因果効果を推定することを目的とした,プロキシ因果学習(PCL)の設定に対処する。プロキシ変数の因果効果を推定する2つの手法が提案されている。本稿では, 比比の明示的推定を回避し, 連続・高次元処理に適した第2の手法の実用的, 効果的な実装を提案する。
論文参考訳（メタデータ） (2025-03-11T12:27:54Z)
The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文参考訳（メタデータ） (2024-05-14T18:05:19Z)
Recovering Latent Confounders from High-dimensional Proxy Variables [4.273372609646382]
本稿では, 連続処理効果推定のための新しいProxy Confounder Factorization (PCF) フレームワークを提案する。特定サンプルサイズについては,独立成分分析(ICA-PCF)を用いた2段階PCF実装と,GD-PCF(Gradient Descent)を用いたエンドツーエンド実装により,潜在共同設立者と高い相関関係が得られた。 ICA-PCFは気候データに直面しても、北大西洋振動の75.9%のばらつきを説明する4つの成分を回収する。
論文参考訳（メタデータ） (2024-03-21T08:39:13Z)
Estimation of individual causal effects in network setup for multiple treatments [4.53340898566495]
個別治療効果 (ITE) の推定問題について, 複数の治療と観察データを用いて検討した。我々は、共同創設者の共有表現を学ぶために、Graph Convolutional Networks(GCN)を採用しています。アプローチでは、個別のニューラルネットワークを使用して、各治療の潜在的な結果を推測する。
論文参考訳（メタデータ） (2023-12-18T06:07:45Z)
Adversarially Balanced Representation for Continuous Treatment Effect Estimation [6.469020202994118]
本稿では,この処理が連続変数である,より実践的で困難なシナリオについて考察する。本稿では,KL分散の表現の不均衡を対角的に最小化する対向反事実回帰ネットワーク(ACFR)を提案する。半合成データセットに対する実験的な評価は、ACFRの最先端手法に対する経験的優位性を実証するものである。
論文参考訳（メタデータ） (2023-12-17T00:46:16Z)
Flexible Nonparametric Inference for Causal Effects under the Front-Door Model [2.6900047294457683]
本研究では, 平均治療効果, 平均治療効果の両面から, 新規な1段階, 目標最小損失ベース推定装置を開発した。我々の推定器は観測されたデータ分布のパラメータ化に基づいて構築され、メディエータ密度を完全に回避するアプローチを含む。因果効果推定器の効率を向上させるためにこれらの制約をどのように活用できるかを示す。
論文参考訳（メタデータ） (2023-12-15T22:04:53Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Kernel Single Proxy Control for Deterministic Confounding [32.70182383946395]
結果が確定的に生成される場合,一つのプロキシ変数が因果推定に十分であることを示す。我々は、挑戦的な合成ベンチマークにおいて因果効果を回復できることを実証し、実証的に証明する。
論文参考訳（メタデータ） (2023-08-08T21:11:06Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Deep Metric Learning with Soft Orthogonal Proxies [1.823505080809275]
本稿では,プロキシにソフト直交性(SO)制約を導入する新しいアプローチを提案する。提案手法では,DMLの目的と合わせて,画像からコンテキスト特徴を抽出するエンコーダとして,データ効率の良い画像変換器(DeiT)を利用する。提案手法が最先端手法よりも有意なマージンで優れていることを示す。
論文参考訳（メタデータ） (2023-06-22T17:22:15Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文参考訳（メタデータ） (2021-10-28T17:46:14Z)
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文参考訳（メタデータ） (2020-07-27T22:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。