論文の概要: Model-Free and Model-Based Policy Evaluation when Causality is Uncertain
- arxiv url: http://arxiv.org/abs/2204.00956v1
- Date: Sat, 2 Apr 2022 23:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 10:40:45.764796
- Title: Model-Free and Model-Based Policy Evaluation when Causality is Uncertain
- Title(参考訳): 因果性不確かさ時のモデルフリー・モデルベース政策評価
- Authors: David Bruns-Smith
- Abstract要約: 政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
- 参考スコア(独自算出の注目度): 7.858296711223292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When decision-makers can directly intervene, policy evaluation algorithms
give valid causal estimates. In off-policy evaluation (OPE), there may exist
unobserved variables that both impact the dynamics and are used by the unknown
behavior policy. These "confounders" will introduce spurious correlations and
naive estimates for a new policy will be biased. We develop worst-case bounds
to assess sensitivity to these unobserved confounders in finite horizons when
confounders are drawn iid each period. We demonstrate that a model-based
approach with robust MDPs gives sharper lower bounds by exploiting domain
knowledge about the dynamics. Finally, we show that when unobserved confounders
are persistent over time, OPE is far more difficult and existing techniques
produce extremely conservative bounds.
- Abstract(参考訳): 意思決定者が直接介入できる場合、ポリシー評価アルゴリズムは適切な因果推定を与える。
オフ・ポリシー・アセスメント(ope)では、ダイナミクスに影響を与える変数と未知の行動ポリシーによって使用される変数の両方が存在する可能性がある。
これらの「共同設立者」は、急激な相関を導入し、新しい政策の予測がバイアスを受けるだろう。
我々は、各期間に共同創設者が引かれるとき、有限の地平線でこれらの未観測の共同創設者に対する感受性を評価するために最悪のケース境界を開発する。
我々は、堅牢なMDPを持つモデルベースアプローチが、動的にドメイン知識を活用することにより、より低い境界を与えることを示した。
最後に、観測されていない共同設立者が時間とともに持続している場合、OPEははるかに困難であり、既存の技術が極めて保守的な境界を生んでいることを示す。
関連論文リスト
- Offline Recommender System Evaluation under Unobserved Confounding [5.4208903577329375]
オフライン推定手法により,ログデータから意思決定ポリシーを学習し,評価することができる。
この仕事を行う重要な前提は、観測されていない共同設立者がいないことである。
この研究は、保守されていない共同ファウンダーの存在下で、政治外の見積もりを行うときに生じる問題を強調することを目的としている。
論文 参考訳(メタデータ) (2023-09-08T09:11:26Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Off-Policy Evaluation in Partially Observed Markov Decision Processes
under Sequential Ignorability [8.388782503421504]
逐次的無知下での動的処理規則の非政治的評価を考察する。
我々は,POMDPにおける非政治評価が,(十分に観察された)マルコフ決定過程における非政治評価よりも厳密であることを示す。
論文 参考訳(メタデータ) (2021-10-24T03:35:23Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Off-policy Policy Evaluation For Sequential Decisions Under Unobserved
Confounding [33.58862183373374]
観測不能条件下でのOPE手法のロバスト性を評価する。
また,OPE法に偏りが強い場合も少ないことが示唆された。
最悪ケース境界の計算に有効な損失最小化手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T05:20:37Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。