論文の概要: Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions
- arxiv url: http://arxiv.org/abs/2002.03478v3
- Date: Tue, 11 Aug 2020 06:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:31:18.122548
- Title: Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions
- Title(参考訳): 高速流動遷移による強化学習における解釈可能なオフポリティ評価
- Authors: Omer Gottesman, Joseph Futoma, Yao Liu, Sonali Parbhoo, Leo Anthony
Celi, Emma Brunskill, Finale Doshi-Velez
- Abstract要約: 強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
- 参考スコア(独自算出の注目度): 48.91284724066349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation in reinforcement learning offers the chance of using
observational data to improve future outcomes in domains such as healthcare and
education, but safe deployment in high stakes settings requires ways of
assessing its validity. Traditional measures such as confidence intervals may
be insufficient due to noise, limited data and confounding. In this paper we
develop a method that could serve as a hybrid human-AI system, to enable human
experts to analyze the validity of policy evaluation estimates. This is
accomplished by highlighting observations in the data whose removal will have a
large effect on the OPE estimate, and formulating a set of rules for choosing
which ones to present to domain experts for validation. We develop methods to
compute exactly the influence functions for fitted Q-evaluation with two
different function classes: kernel-based and linear least squares, as well as
importance sampling methods. Experiments on medical simulations and real-world
intensive care unit data demonstrate that our method can be used to identify
limitations in the evaluation process and make evaluation more robust.
- Abstract(参考訳): 強化学習におけるオフポリシー評価は、医療や教育といった分野における将来の成果を改善するために観察データを使用する機会を提供するが、高い利害関係者の安全な配置には、その妥当性を評価する方法が必要である。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である。
本稿では,人間とAIのハイブリッドシステムとして機能する手法を開発し,政策評価評価の妥当性について分析する。
これは、OPEの推定値に大きな影響を及ぼすであろうデータの観察を強調し、検証のためにドメインの専門家に提示すべきものを選択するための一連のルールを定式化することで達成される。
我々はカーネルベースと線形最小二乗という2つの異なる関数クラスで適合Q-評価を行うための影響関数を正確に計算する手法を開発した。
医療シミュレーションと実世界の集中治療ユニットデータを用いた実験により,評価プロセスの限界を特定し,より堅牢に評価できることを示す。
関連論文リスト
- Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Empirical Validation of Conformal Prediction for Trustworthy Skin Lesions Classification [3.7305040207339286]
我々は、深層ニューラルネットワークにおける不確実性定量化を評価するために、コンフォーマル予測、モンテカルロドロップアウト、およびエビデンシャルディープラーニングアプローチを開発した。
結果: 実験結果から, 不確実性定量化はコンフォーマル予測法により著しく向上した。
我々の結論は、様々なテスト条件にまたがる整合予測の頑健で一貫した性能を強調している。
論文 参考訳(メタデータ) (2023-12-12T17:37:16Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。