論文の概要: Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders
- arxiv url: http://arxiv.org/abs/2302.00662v1
- Date: Wed, 1 Feb 2023 18:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:40:34.813895
- Title: Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders
- Title(参考訳): 連続的外因性無観測共同設立者のロバスト適合Q-評価と反復
- Authors: David Bruns-Smith and Angela Zhou
- Abstract要約: 未確認の共同設立者の存在下で、ロバストな政策評価と政策最適化について検討する。
ベルマン作用素の閉形式解を用いた(直交)ロバストな(直交)ロバストなQ-イテレーションを提案し,解析する。
- 参考スコア(独自算出の注目度): 19.432532177366124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning is important in domains such as medicine,
economics, and e-commerce where online experimentation is costly, dangerous or
unethical, and where the true model is unknown. However, most methods assume
all covariates used in the behavior policy's action decisions are observed.
This untestable assumption may be incorrect. We study robust policy evaluation
and policy optimization in the presence of unobserved confounders. We assume
the extent of possible unobserved confounding can be bounded by a sensitivity
model, and that the unobserved confounders are sequentially exogenous. We
propose and analyze an (orthogonalized) robust fitted-Q-iteration that uses
closed-form solutions of the robust Bellman operator to derive a loss
minimization problem for the robust Q function. Our algorithm enjoys the
computational ease of fitted-Q-iteration and statistical improvements (reduced
dependence on quantile estimation error) from orthogonalization. We provide
sample complexity bounds, insights, and show effectiveness in simulations.
- Abstract(参考訳): オフライン強化学習は、オンライン実験が費用がかかり、危険または非倫理的であり、真のモデルが不明な領域において重要な分野である。
しかし、ほとんどの手法は行動方針の行動決定に使用される全ての共変体が観察されていると仮定する。
この証明不可能な仮定は誤りかもしれない。
未確認の共同設立者の存在下で、ロバストな政策評価と政策最適化について検討する。
観測不能なコンファウンディングの範囲は、感度モデルによって境界化され、観測不能なコンファウンダリは順次外在的であると仮定する。
我々はロバストなベルマン作用素の閉形式解を用いてロバストq関数の損失最小化問題を導出する(オルトゴナル化)ロバストなq-イテレーションを提案し,解析する。
本アルゴリズムは直交化による適合q文の計算容易性と統計的改善(量子量推定誤差依存性の低減)を享受する。
サンプルの複雑性境界、洞察を提供し、シミュレーションの有効性を示します。
関連論文リスト
- Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Sensitivity-Aware Amortized Bayesian Inference [8.753065246797561]
感度分析は、様々なモデリング選択が統計的分析の結果に与える影響を明らかにする。
ニューラルネットワークを用いたシミュレーションベース推論に感度解析を統合するための多面的アプローチである感性認識型ベイズ推論(SA-ABI)を提案する。
本稿では,本手法が病気発生のダイナミクスや地球温暖化のしきい値から人的意思決定に至るまで,応用モデリング問題における有効性を示す。
論文 参考訳(メタデータ) (2023-10-17T10:14:10Z) - Beta quantile regression for robust estimation of uncertainty in the
presence of outliers [1.6377726761463862]
量子回帰(Quantile Regression)は、ディープニューラルネットワークにおけるアレタリック不確実性を推定するために用いられる。
本稿では、頑健な分散の概念を取り入れた量子レグレッションのためのロバストな解を提案する。
論文 参考訳(メタデータ) (2023-09-14T01:18:57Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Learning Stable Nonparametric Dynamical Systems with Gaussian Process
Regression [9.126353101382607]
データからガウス過程回帰に基づいて非パラメトリックリアプノフ関数を学習する。
非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させるものではないことを証明した。
論文 参考訳(メタデータ) (2020-06-14T11:17:17Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。