論文の概要: Comment: Entropy Learning for Dynamic Treatment Regimes
- arxiv url: http://arxiv.org/abs/2004.02778v1
- Date: Mon, 6 Apr 2020 16:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:53:55.658349
- Title: Comment: Entropy Learning for Dynamic Treatment Regimes
- Title(参考訳): コメント:動的治療レジームのためのエントロピー学習
- Authors: Nathan Kallus
- Abstract要約: JSLZのアプローチは、逆確率(IPW)に基づく与えられた決定規則の値の拒絶とサンプリングの見積もりと、その解釈を重み付けされた(またはコストに敏感な)分類として利用する。
彼らのスムーズな分類サロゲートの使用は、分布の分析に慎重なアプローチを可能にする。
IPWの推定は、ほとんどのデータを捨てる重みにつながり、残余については非常に変動しているため、問題となる。
- 参考スコア(独自算出の注目度): 58.442274475425144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I congratulate Profs. Binyan Jiang, Rui Song, Jialiang Li, and Donglin Zeng
(JSLZ) for an exciting development in conducting inferences on optimal dynamic
treatment regimes (DTRs) learned via empirical risk minimization using the
entropy loss as a surrogate. JSLZ's approach leverages a
rejection-and-importance-sampling estimate of the value of a given decision
rule based on inverse probability weighting (IPW) and its interpretation as a
weighted (or cost-sensitive) classification. Their use of smooth classification
surrogates enables their careful approach to analyzing asymptotic
distributions. However, even for evaluation purposes, the IPW estimate is
problematic as it leads to weights that discard most of the data and are
extremely variable on whatever remains. In this comment, I discuss an
optimization-based alternative to evaluating DTRs, review several connections,
and suggest directions forward. This extends the balanced policy evaluation
approach of Kallus (2018a) to the longitudinal setting.
- Abstract(参考訳): 教授を祝福します。
Binyan Jiang, Rui Song, Jialiang Li, Donglin Zeng (JSLZ) は, エントロピー損失をサロゲートとして用いた経験的リスク最小化を通じて学習した最適動的治療体制(DTR)を推定するエキサイティングな開発を行った。
JSLZのアプローチは、逆確率重み付け(IPW)に基づく決定規則の値の拒絶と重要度サンプリングの見積もりと、その解釈を重み付き(またはコスト感受性)の分類として活用する。
滑らかな分類サーロゲートを用いることで、漸近分布の解析に慎重なアプローチが可能になる。
しかし、評価の目的であっても、IPWの推定値が問題となるのは、データの大半を破棄し、残余に対して非常に変動する重みが生じるためである。
本稿では、DTRの評価やいくつかの接続のレビュー、今後の方向性の提案など、最適化に基づく代替案について論じる。
これは、Kallus (2018a) の均衡政策評価アプローチを、縦方向の設定にまで拡張する。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - On Training Implicit Meta-Learning With Applications to Inductive
Weighing in Consistency Regularization [0.0]
暗黙的メタラーニング(IML)では、特にヘシアン(Hessian)の計算に2ドル(約2,200円)の勾配を必要とする。
ヘッセンの様々な近似が提案されたが、計算コスト、安定性、解の一般化、推定精度の体系的な比較はほとんど見過ごされてしまった。
本稿では,ドメイン固有の特徴を抽出するために,信頼ネットワークをトレーニングすることで,有用画像のアップウェイトや配布外サンプルのダウンウェイトを学べることを示す。
論文 参考訳(メタデータ) (2023-10-28T15:50:03Z) - A Semiparametric Instrumented Difference-in-Differences Approach to
Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。
具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。
また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文 参考訳(メタデータ) (2023-10-14T09:38:32Z) - Post Reinforcement Learning Inference [22.117487428829488]
強化学習アルゴリズムから収集したデータを用いた推定と推定について検討する。
本稿では,時間変化の分散を安定化させるために,適応重みを慎重に設計した重み付きZ推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - An Investigation of the Bias-Variance Tradeoff in Meta-Gradients [53.28925387487846]
ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-09-22T20:33:05Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - On Signal-to-Noise Ratio Issues in Variational Inference for Deep
Gaussian Processes [55.62520135103578]
重み付き変分推論を用いたDGP(Deep Gaussian Processs)の訓練で用いられる勾配推定は,信号-雑音比(SNR)問題の影響を受けやすいことを示す。
DGPモデルの予測性能が一貫した改善につながることを示す。
論文 参考訳(メタデータ) (2020-11-01T14:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。