Fugu-MT 論文翻訳(概要): Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

論文の概要: Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

arxiv url: http://arxiv.org/abs/2302.00662v1
Date: Wed, 1 Feb 2023 18:40:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 12:40:34.813895
Title: Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders
Title（参考訳）: 連続的外因性無観測共同設立者のロバスト適合Q-評価と反復
Authors: David Bruns-Smith and Angela Zhou
Abstract要約: 未確認の共同設立者の存在下で、ロバストな政策評価と政策最適化について検討する。ベルマン作用素の閉形式解を用いた(直交)ロバストな(直交)ロバストなQ-イテレーションを提案し,解析する。
参考スコア（独自算出の注目度）: 19.432532177366124
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning is important in domains such as medicine, economics, and e-commerce where online experimentation is costly, dangerous or unethical, and where the true model is unknown. However, most methods assume all covariates used in the behavior policy's action decisions are observed. This untestable assumption may be incorrect. We study robust policy evaluation and policy optimization in the presence of unobserved confounders. We assume the extent of possible unobserved confounding can be bounded by a sensitivity model, and that the unobserved confounders are sequentially exogenous. We propose and analyze an (orthogonalized) robust fitted-Q-iteration that uses closed-form solutions of the robust Bellman operator to derive a loss minimization problem for the robust Q function. Our algorithm enjoys the computational ease of fitted-Q-iteration and statistical improvements (reduced dependence on quantile estimation error) from orthogonalization. We provide sample complexity bounds, insights, and show effectiveness in simulations.
Abstract（参考訳）: オフライン強化学習は、オンライン実験が費用がかかり、危険または非倫理的であり、真のモデルが不明な領域において重要な分野である。しかし、ほとんどの手法は行動方針の行動決定に使用される全ての共変体が観察されていると仮定する。この証明不可能な仮定は誤りかもしれない。未確認の共同設立者の存在下で、ロバストな政策評価と政策最適化について検討する。観測不能なコンファウンディングの範囲は、感度モデルによって境界化され、観測不能なコンファウンダリは順次外在的であると仮定する。我々はロバストなベルマン作用素の閉形式解を用いてロバストq関数の損失最小化問題を導出する(オルトゴナル化)ロバストなq-イテレーションを提案し,解析する。本アルゴリズムは直交化による適合q文の計算容易性と統計的改善(量子量推定誤差依存性の低減)を享受する。サンプルの複雑性境界、洞察を提供し、シミュレーションの有効性を示します。

関連論文リスト

Learning Complex Physical Regimes via Coverage-oriented Uncertainty Quantification: An application to the Critical Heat Flux [0.0]
不確実性定量化(UQ)は、安全性評価ではなく、学習タスク自体への支援と見なされるべきである。 OECD/NEA Expert Group on Reactor Systems Multi-Physicsで発表されたCritical Heat Fluxベンチマークとデータセットに注目した。ポストホック法は統計的キャリブレーションを保証するが、カバレッジ指向学習は複雑な物理状態に適合するようにモデルの表現を効果的に再評価する。
論文参考訳（メタデータ） (2026-02-25T09:04:15Z)
Robust Spatiotemporal Epidemic Modeling with Integrated Adaptive Outlier Detection [7.5504472850103435]
疫病モデルでは、アウトレーヤはパラメータ推定を歪め、公衆衛生上の判断を誤ったものにすることができる。本稿では、この歪みを軽減するために、ロバストな一般化加法モデル(RST-GAM)を導入する。アメリカ合衆国における郡レベルのCOVID-19感染データを解析し,RTT-GAMの実用性を実証した。
論文参考訳（メタデータ） (2025-07-12T19:23:25Z)
Adaptive Learning-based Surrogate Method for Stochastic Programs with Implicitly Decision-dependent Uncertainty [1.5412450351033007]
暗黙的に決定に依存した確率変数が非パラメトリック回帰モデルに従属するプログラミング問題のクラスを考える。本研究では,シミュレーションスキームと統計的推定を統合した適応学習に基づく代理法を開発し,推定に基づく代理関数を構築する。
論文参考訳（メタデータ） (2025-05-12T07:35:06Z)
Self-Consistent Equation-guided Neural Networks for Censored Time-to-Event Data [11.550402345767141]
本稿では,自己整合方程式を利用した生成逆数ネットワークを用いた条件付き生存関数の非パラメトリック推定手法を提案する。提案手法はモデルフリーであり,条件付き生存関数の構造に関するパラメトリックな仮定は不要である。
論文参考訳（メタデータ） (2025-03-12T06:24:35Z)
Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL) 本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文参考訳（メタデータ） (2024-03-19T17:48:42Z)
Sensitivity-Aware Amortized Bayesian Inference [8.753065246797561]
感度分析は、様々なモデリング選択が統計的分析の結果に与える影響を明らかにする。ニューラルネットワークを用いたシミュレーションベース推論に感度解析を統合するための多面的アプローチである感性認識型ベイズ推論(SA-ABI)を提案する。本稿では,本手法が病気発生のダイナミクスや地球温暖化のしきい値から人的意思決定に至るまで,応用モデリング問題における有効性を示す。
論文参考訳（メタデータ） (2023-10-17T10:14:10Z)
Beta quantile regression for robust estimation of uncertainty in the presence of outliers [1.6377726761463862]
量子回帰(Quantile Regression)は、ディープニューラルネットワークにおけるアレタリック不確実性を推定するために用いられる。本稿では、頑健な分散の概念を取り入れた量子レグレッションのためのロバストな解を提案する。
論文参考訳（メタデータ） (2023-09-14T01:18:57Z)
Convergence of uncertainty estimates in Ensemble and Bayesian sparse model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文参考訳（メタデータ） (2023-01-30T04:07:59Z)
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T15:39:36Z)
Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文参考訳（メタデータ） (2021-11-15T03:16:56Z)
Generalization of Neural Combinatorial Solvers Through the Lens of Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文参考訳（メタデータ） (2021-10-21T07:28:11Z)
Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文参考訳（メタデータ） (2021-05-17T08:36:18Z)
Learning Stable Nonparametric Dynamical Systems with Gaussian Process Regression [9.126353101382607]
データからガウス過程回帰に基づいて非パラメトリックリアプノフ関数を学習する。非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させるものではないことを証明した。
論文参考訳（メタデータ） (2020-06-14T11:17:17Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。我々は、ある政策の境界を推定するアプローチを開発する。より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文参考訳（メタデータ） (2020-02-11T16:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。