論文の概要: Inference for relative sparsity
- arxiv url: http://arxiv.org/abs/2306.14297v1
- Date: Sun, 25 Jun 2023 17:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:45:55.697361
- Title: Inference for relative sparsity
- Title(参考訳): 相対的スパーシティの推論
- Authors: Samuel J. Weisenthal, Sally W. Thurston, Ashkan Ertefaie
- Abstract要約: 医学応用においては,不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論が重要である。
相対的な空間的目的は不安定で二項作用の場合において無限に推定される不注意な値関数に依存するため、推論は困難である。
これらの課題に対処するため、相対的疎度目標内に重み付けされた信頼地域政策最適化機能を組み込み、適応的相対的疎度ペナルティを実装し、選択後推論のためのサンプル分割フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In healthcare, there is much interest in estimating policies, or mappings
from covariates to treatment decisions. Recently, there is also interest in
constraining these estimated policies to the standard of care, which generated
the observed data. A relative sparsity penalty was proposed to derive policies
that have sparse, explainable differences from the standard of care,
facilitating justification of the new policy. However, the developers of this
penalty only considered estimation, not inference. Here, we develop inference
for the relative sparsity objective function, because characterizing
uncertainty is crucial to applications in medicine. Further, in the relative
sparsity work, the authors only considered the single-stage decision case;
here, we consider the more general, multi-stage case. Inference is difficult,
because the relative sparsity objective depends on the unpenalized value
function, which is unstable and has infinite estimands in the binary action
case. Further, one must deal with a non-differentiable penalty. To tackle these
issues, we nest a weighted Trust Region Policy Optimization function within a
relative sparsity objective, implement an adaptive relative sparsity penalty,
and propose a sample-splitting framework for post-selection inference. We study
the asymptotic behavior of our proposed approaches, perform extensive
simulations, and analyze a real, electronic health record dataset.
- Abstract(参考訳): 医療分野では、ポリシーの推定や、共変量から治療決定へのマッピングに多くの関心がある。
近年、これらの推定方針をケア基準に制約することにも関心があり、観測されたデータを生成する。
ケアの基準と説明可能な相違がある政策を導出し、新政策の正当化を促進するために、相対的疎外罰が提案された。
しかし、このペナルティの開発者は推測ではなく、推測のみを考慮した。
本稿では,医学応用において不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論を開発する。
さらに、相対的スパース性の研究では、著者らは単段決定の場合のみを考慮し、より一般的な多段決定の場合を考える。
相対スパーシティの目的が、不安定で二項作用の場合の無限推定を持つ非ペナルティ値関数に依存するため、推論は困難である。
さらに、不可分なペナルティにも対処しなければならない。
これらの問題に対処するために,信頼領域政策最適化関数を相対的スパーシティ目標に組み入れ,適応的相対スパーシティペナルティを実装し,選択後の推定のためのサンプルスプリッティングフレームワークを提案する。
提案手法の漸近的挙動を調査し,広範なシミュレーションを行い,実際の電子健康記録データセットを解析した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究では, 因果同定, 統計的分散推定, および最適処理規則のロバスト推定について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。
この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:29:25Z) - Policy Learning with Asymmetric Counterfactual Utilities [0.6138671548064356]
非対称対実効関数を用いた最適政策学習について検討する。
最大電力損失を最小にすることで、最小限の決定ルールを導出する。
中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることが示される。
論文 参考訳(メタデータ) (2022-06-21T15:44:49Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。