論文の概要: Generalizing Off-Policy Evaluation From a Causal Perspective For
Sequential Decision-Making
- arxiv url: http://arxiv.org/abs/2201.08262v1
- Date: Thu, 20 Jan 2022 16:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 17:21:27.115667
- Title: Generalizing Off-Policy Evaluation From a Causal Perspective For
Sequential Decision-Making
- Title(参考訳): シークエンシャル意思決定における因果的視点によるオフポリシィ評価の一般化
- Authors: Sonali Parbhoo, Shalmali Joshi, Finale Doshi-Velez
- Abstract要約: 我々は,OPEの基本的な限界を理解する上で,この協会を明確に強調することが重要な意味を持つと主張している。
この関係がどのようにして自然デシラタを動機付け、因果推定の一般的なセットを考えるかを実証する。
我々は,これらの側面を,大規模OPE研究のための実用的なデシラタとして論じるとともに,実用性でインラインで論じる。
- 参考スコア(独自算出の注目度): 32.06576007608403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the effects of a policy based on observational data from a
different policy is a common problem across several high-stake decision-making
domains, and several off-policy evaluation (OPE) techniques have been proposed.
However, these methods largely formulate OPE as a problem disassociated from
the process used to generate the data (i.e. structural assumptions in the form
of a causal graph). We argue that explicitly highlighting this association has
important implications on our understanding of the fundamental limits of OPE.
First, this implies that current formulation of OPE corresponds to a narrow set
of tasks, i.e. a specific causal estimand which is focused on prospective
evaluation of policies over populations or sub-populations. Second, we
demonstrate how this association motivates natural desiderata to consider a
general set of causal estimands, particularly extending the role of OPE for
counterfactual off-policy evaluation at the level of individuals of the
population. A precise description of the causal estimand highlights which OPE
estimands are identifiable from observational data under the stated generative
assumptions. For those OPE estimands that are not identifiable, the causal
perspective further highlights where more experimental data is necessary, and
highlights situations where human expertise can aid identification and
estimation. Furthermore, many formalisms of OPE overlook the role of
uncertainty entirely in the estimation process.We demonstrate how specifically
characterising the causal estimand highlights the different sources of
uncertainty and when human expertise can naturally manage this uncertainty. We
discuss each of these aspects as actionable desiderata for future OPE research
at scale and in-line with practical utility.
- Abstract(参考訳): 異なる政策からの観測データに基づく政策の効果を評価することは、いくつかの高い意思決定領域に共通する問題であり、いくつかの非政治評価(OPE)技術が提案されている。
しかし、これらの手法は、データを生成するプロセス(すなわち因果グラフの形での構造的仮定)とは無関係な問題としてOPEを定式化する。
我々は、この協会を明確に強調することは、OPEの基本的限界に対する理解に重要な意味を持つと論じている。
第一に、OPEの現在の定式化は、人口やサブ人口に対する政策の予測的な評価に焦点を当てた特定の因果推定という、狭いタスクの集合に対応することを意味する。
第2に,本学会がナチュラル・デシデラタを動機づけて,一般的な因果推定を考察し,特に集団の個人レベルでの対実的非政治評価におけるOPEの役割を拡大した。
因果推定値の正確な説明は、OPE推定値が、前述の生成仮定の下で観測データから特定可能であることを強調している。
識別不能なOPE推定では、因果的視点は、より実験的なデータが必要な場所をさらに強調し、人間の専門知識が識別と推定に役立つ状況を強調している。
さらに,その推定過程における不確実性の役割を完全に見落とし,その因果的特徴付けが不確実性の異なる源を具体的に強調し,人間の専門知識が自然にこの不確実性を管理することができることを実証する。
本稿では,これらの側面を,大規模OPE研究のための実用的なデシラタとして論じる。
関連論文リスト
- Challenges and Considerations in the Evaluation of Bayesian Causal Discovery [49.0053848090947]
因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。
単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。
評価に最も適した指標についてのコンセンサスはない。
論文 参考訳(メタデータ) (2024-06-05T12:45:23Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。