論文の概要: Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders
- arxiv url: http://arxiv.org/abs/2302.00662v2
- Date: Fri, 22 Sep 2023 15:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 19:25:28.289819
- Title: Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders
- Title(参考訳): 連続的外因性無観測共同設立者のロバスト適合Q-評価と反復
- Authors: David Bruns-Smith and Angela Zhou
- Abstract要約: 連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
- 参考スコア(独自算出の注目度): 16.193776814471768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning is important in domains such as medicine,
economics, and e-commerce where online experimentation is costly, dangerous or
unethical, and where the true model is unknown. However, most methods assume
all covariates used in the behavior policy's action decisions are observed.
Though this assumption, sequential ignorability/unconfoundedness, likely does
not hold in observational data, most of the data that accounts for selection
into treatment may be observed, motivating sensitivity analysis. We study
robust policy evaluation and policy optimization in the presence of
sequentially-exogenous unobserved confounders under a sensitivity model. We
propose and analyze orthogonalized robust fitted-Q-iteration that uses
closed-form solutions of the robust Bellman operator to derive a loss
minimization problem for the robust Q function, and adds a bias-correction to
quantile estimation. Our algorithm enjoys the computational ease of
fitted-Q-iteration and statistical improvements (reduced dependence on quantile
estimation error) from orthogonalization. We provide sample complexity bounds,
insights, and show effectiveness both in simulations and on real-world
longitudinal healthcare data of treating sepsis. In particular, our model of
sequential unobserved confounders yields an online Markov decision process,
rather than partially observed Markov decision process: we illustrate how this
can enable warm-starting optimistic reinforcement learning algorithms with
valid robust bounds from observational data.
- Abstract(参考訳): オフライン強化学習は、オンライン実験が費用がかかり、危険または非倫理的であり、真のモデルが不明な領域において重要な分野である。
しかし、ほとんどの手法は行動方針の行動決定に使用される全ての共変体が観察されていると仮定する。
この仮定、シーケンシャルな無知/不整合性は、おそらく観測データでは保持されないが、治療の選択に関するデータのほとんどは観察され、感度分析の動機となる。
感度モデルの下で, 逐次外在的非オブザーブ型共同創設者の存在下でのロバストな政策評価と政策最適化について検討する。
本稿では,ロバストq関数の損失最小化問題を導出するためにロバストベルマン作用素の閉形式解を用いた直交ロバストq文を提案し解析し,量的推定にバイアス補正を加える。
本アルゴリズムは直交化による適合q文の計算容易性と統計的改善(量子量推定誤差依存性の低減)を享受する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
特に、シーケンシャルな非オブザーブな共同創設者のモデルでは、部分的に観察されたマルコフ決定プロセスではなく、オンラインマルコフ決定プロセスが得られます。
関連論文リスト
- Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Sensitivity-Aware Amortized Bayesian Inference [8.753065246797561]
感度分析は、様々なモデリング選択が統計的分析の結果に与える影響を明らかにする。
ニューラルネットワークを用いたシミュレーションベース推論に感度解析を統合するための多面的アプローチである感性認識型ベイズ推論(SA-ABI)を提案する。
本稿では,本手法が病気発生のダイナミクスや地球温暖化のしきい値から人的意思決定に至るまで,応用モデリング問題における有効性を示す。
論文 参考訳(メタデータ) (2023-10-17T10:14:10Z) - Beta quantile regression for robust estimation of uncertainty in the
presence of outliers [1.6377726761463862]
量子回帰(Quantile Regression)は、ディープニューラルネットワークにおけるアレタリック不確実性を推定するために用いられる。
本稿では、頑健な分散の概念を取り入れた量子レグレッションのためのロバストな解を提案する。
論文 参考訳(メタデータ) (2023-09-14T01:18:57Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Learning Stable Nonparametric Dynamical Systems with Gaussian Process
Regression [9.126353101382607]
データからガウス過程回帰に基づいて非パラメトリックリアプノフ関数を学習する。
非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させるものではないことを証明した。
論文 参考訳(メタデータ) (2020-06-14T11:17:17Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。