論文の概要: Delphic Offline Reinforcement Learning under Nonidentifiable Hidden
Confounding
- arxiv url: http://arxiv.org/abs/2306.01157v1
- Date: Thu, 1 Jun 2023 21:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:44:05.012302
- Title: Delphic Offline Reinforcement Learning under Nonidentifiable Hidden
Confounding
- Title(参考訳): 非同定型隠れ結合によるdelphicオフライン強化学習
- Authors: Aliz\'ee Pace, Hugo Y\`eche, Bernhard Sch\"olkopf, Gunnar R\"atsch,
Guy Tennenholtz
- Abstract要約: 偏見的不確実性と呼ばれる隠れ共起バイアスによる不確実性の定義を提案する。
提案手法は,3種類の不確かさを推定し,それらを考慮した悲観的なオフラインRLアルゴリズムを構築するための実用的手法である。
この結果から,非同定不能な隠れ共起バイアスを緩和して,オフラインRLソリューションを実際に改善できることが示唆された。
- 参考スコア(独自算出の注目度): 10.315867984674032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prominent challenge of offline reinforcement learning (RL) is the issue of
hidden confounding: unobserved variables may influence both the actions taken
by the agent and the observed outcomes. Hidden confounding can compromise the
validity of any causal conclusion drawn from data and presents a major obstacle
to effective offline RL. In the present paper, we tackle the problem of hidden
confounding in the nonidentifiable setting. We propose a definition of
uncertainty due to hidden confounding bias, termed delphic uncertainty, which
uses variation over world models compatible with the observations, and
differentiate it from the well-known epistemic and aleatoric uncertainties. We
derive a practical method for estimating the three types of uncertainties, and
construct a pessimistic offline RL algorithm to account for them. Our method
does not assume identifiability of the unobserved confounders, and attempts to
reduce the amount of confounding bias. We demonstrate through extensive
experiments and ablations the efficacy of our approach on a sepsis management
benchmark, as well as on electronic health records. Our results suggest that
nonidentifiable hidden confounding bias can be mitigated to improve offline RL
solutions in practice.
- Abstract(参考訳): オフライン強化学習(RL)の顕著な課題は、隠れた共起の問題である: 観測されていない変数は、エージェントが取る行動と観察結果の両方に影響を及ぼす可能性がある。
隠れた結合は、データから引き出された因果的結論の有効性を損なう可能性があり、効果的なオフラインrlへの大きな障害となる。
本稿では,同定不能な設定において隠れた共起の問題に取り組む。
デルフィック不確実性(delphic uncertainty)とよばれる隠された共起バイアスによる不確実性の定義を,観測と整合する世界モデル上での変動を用いて提案し,よく知られた認識論的・随伴的不確実性と区別する。
提案手法は,3種類の不確かさを推定し,それらを考慮した悲観的なオフラインRLアルゴリズムを構築する。
提案手法は,観察されていない共同創設者の識別性を仮定せず,共起バイアスの低減を試みている。
本研究は、広範囲な実験を通じて、敗血症管理ベンチマークおよび電子健康記録におけるアプローチの有効性を実証する。
この結果から,非同定不能な隠れ共起バイアスを緩和して,オフラインRLソリューションを実際に改善できることが示唆された。
関連論文リスト
- Offline Recommender System Evaluation under Unobserved Confounding [5.4208903577329375]
オフライン推定手法により,ログデータから意思決定ポリシーを学習し,評価することができる。
この仕事を行う重要な前提は、観測されていない共同設立者がいないことである。
この研究は、保守されていない共同ファウンダーの存在下で、政治外の見積もりを行うときに生じる問題を強調することを目的としている。
論文 参考訳(メタデータ) (2023-09-08T09:11:26Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Deep Learning based Uncertainty Decomposition for Real-time Control [9.067368638784355]
本稿では,ディープラーニングを用いたトレーニングデータの欠如を検出する新しい手法を提案する。
合成および実世界のデータセットに対する既存のアプローチに対する利点を示す。
さらに、シミュレーションされたクアッドコプターにオンラインデータ効率制御を展開させる上で、この不確実性推定の実用性を実証する。
論文 参考訳(メタデータ) (2020-10-06T10:46:27Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Uncertainty-Gated Stochastic Sequential Model for EHR Mortality
Prediction [6.170898159041278]
本稿では,欠落変数の分布を推定し,隠れ状態の更新を行い,院内死亡の可能性を予測できる新しい変動再帰ネットワークを提案する。
我々のモデルは、これらの手順を1つのストリームで実行し、エンドツーエンドで全てのネットワークパラメータを共同で学習できることは注目に値する。
論文 参考訳(メタデータ) (2020-03-02T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。