論文の概要: Comment: Entropy Learning for Dynamic Treatment Regimes
- arxiv url: http://arxiv.org/abs/2004.02778v1
- Date: Mon, 6 Apr 2020 16:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:53:55.658349
- Title: Comment: Entropy Learning for Dynamic Treatment Regimes
- Title(参考訳): コメント:動的治療レジームのためのエントロピー学習
- Authors: Nathan Kallus
- Abstract要約: JSLZのアプローチは、逆確率(IPW)に基づく与えられた決定規則の値の拒絶とサンプリングの見積もりと、その解釈を重み付けされた(またはコストに敏感な)分類として利用する。
彼らのスムーズな分類サロゲートの使用は、分布の分析に慎重なアプローチを可能にする。
IPWの推定は、ほとんどのデータを捨てる重みにつながり、残余については非常に変動しているため、問題となる。
- 参考スコア(独自算出の注目度): 58.442274475425144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I congratulate Profs. Binyan Jiang, Rui Song, Jialiang Li, and Donglin Zeng
(JSLZ) for an exciting development in conducting inferences on optimal dynamic
treatment regimes (DTRs) learned via empirical risk minimization using the
entropy loss as a surrogate. JSLZ's approach leverages a
rejection-and-importance-sampling estimate of the value of a given decision
rule based on inverse probability weighting (IPW) and its interpretation as a
weighted (or cost-sensitive) classification. Their use of smooth classification
surrogates enables their careful approach to analyzing asymptotic
distributions. However, even for evaluation purposes, the IPW estimate is
problematic as it leads to weights that discard most of the data and are
extremely variable on whatever remains. In this comment, I discuss an
optimization-based alternative to evaluating DTRs, review several connections,
and suggest directions forward. This extends the balanced policy evaluation
approach of Kallus (2018a) to the longitudinal setting.
- Abstract(参考訳): 教授を祝福します。
Binyan Jiang, Rui Song, Jialiang Li, Donglin Zeng (JSLZ) は, エントロピー損失をサロゲートとして用いた経験的リスク最小化を通じて学習した最適動的治療体制(DTR)を推定するエキサイティングな開発を行った。
JSLZのアプローチは、逆確率重み付け(IPW)に基づく決定規則の値の拒絶と重要度サンプリングの見積もりと、その解釈を重み付き(またはコスト感受性)の分類として活用する。
滑らかな分類サーロゲートを用いることで、漸近分布の解析に慎重なアプローチが可能になる。
しかし、評価の目的であっても、IPWの推定値が問題となるのは、データの大半を破棄し、残余に対して非常に変動する重みが生じるためである。
本稿では、DTRの評価やいくつかの接続のレビュー、今後の方向性の提案など、最適化に基づく代替案について論じる。
これは、Kallus (2018a) の均衡政策評価アプローチを、縦方向の設定にまで拡張する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On Training Implicit Meta-Learning With Applications to Inductive
Weighing in Consistency Regularization [0.0]
暗黙的メタラーニング(IML)では、特にヘシアン(Hessian)の計算に2ドル(約2,200円)の勾配を必要とする。
ヘッセンの様々な近似が提案されたが、計算コスト、安定性、解の一般化、推定精度の体系的な比較はほとんど見過ごされてしまった。
本稿では,ドメイン固有の特徴を抽出するために,信頼ネットワークをトレーニングすることで,有用画像のアップウェイトや配布外サンプルのダウンウェイトを学べることを示す。
論文 参考訳(メタデータ) (2023-10-28T15:50:03Z) - A Semiparametric Instrumented Difference-in-Differences Approach to
Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。
具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。
また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文 参考訳(メタデータ) (2023-10-14T09:38:32Z) - Post-Episodic Reinforcement Learning Inference [24.290665221707652]
エピソード強化学習(RL)アルゴリズムから収集したデータによる推定と推定について検討する。
本稿では,適応重み付き再重み付き$Z$推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - An Investigation of the Bias-Variance Tradeoff in Meta-Gradients [53.28925387487846]
ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-09-22T20:33:05Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - On Signal-to-Noise Ratio Issues in Variational Inference for Deep
Gaussian Processes [55.62520135103578]
重み付き変分推論を用いたDGP(Deep Gaussian Processs)の訓練で用いられる勾配推定は,信号-雑音比(SNR)問題の影響を受けやすいことを示す。
DGPモデルの予測性能が一貫した改善につながることを示す。
論文 参考訳(メタデータ) (2020-11-01T14:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。