論文の概要: A Convex Framework for Confounding Robust Inference
- arxiv url: http://arxiv.org/abs/2309.12450v2
- Date: Wed, 1 Nov 2023 17:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:48:11.269565
- Title: A Convex Framework for Confounding Robust Inference
- Title(参考訳): ロバスト推論を補足するConvexフレームワーク
- Authors: Kei Ishikawa, Niao He, Takafumi Kanamori
- Abstract要約: 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
本稿では,凸プログラミングを用いてポリシー値のシャープな下限を推定する一般推定器を提案する。
- 参考スコア(独自算出の注目度): 21.918894096307294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study policy evaluation of offline contextual bandits subject to
unobserved confounders. Sensitivity analysis methods are commonly used to
estimate the policy value under the worst-case confounding over a given
uncertainty set. However, existing work often resorts to some coarse relaxation
of the uncertainty set for the sake of tractability, leading to overly
conservative estimation of the policy value. In this paper, we propose a
general estimator that provides a sharp lower bound of the policy value using
convex programming. The generality of our estimator enables various extensions
such as sensitivity analysis with f-divergence, model selection with cross
validation and information criterion, and robust policy learning with the sharp
lower bound. Furthermore, our estimation method can be reformulated as an
empirical risk minimization problem thanks to the strong duality, which enables
us to provide strong theoretical guarantees of the proposed estimator using
techniques of the M-estimation.
- Abstract(参考訳): 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
感度分析法は、与えられた不確実性セット上での最悪の場合のポリシー値の推定によく用いられる。
しかし、既存の作業はしばしば、トラクタビリティのために設定された不確実性の粗い緩和に頼り、政策価値を過度に保守的に見積もる。
本稿では,convexプログラミングを用いて,ポリシー値の鋭い下限を提供する一般的な推定器を提案する。
この推定器の汎用性は,f-divergenceによる感度解析,クロス検証と情報基準によるモデル選択,鋭い下限による強固なポリシ学習など,さまざまな拡張を可能にする。
さらに,本手法は,M推定手法を用いて提案した推定器の理論的確証を高い双対性により,経験的リスク最小化問題として再検討することができる。
関連論文リスト
- Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文 参考訳(メタデータ) (2024-04-01T01:27:07Z) - Distributionally Robust Policy Evaluation under General Covariate Shift
in Contextual Bandits [34.4901181676133]
本稿では,オフライン政策評価の信頼性を高めるための分散ロバストな手法を提案する。
本手法は, 状況と政策分布の両面での相違点が存在する場合に, 堅牢な政策評価結果を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-21T00:42:06Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。