論文の概要: Treatment recommendation with distributional targets
- arxiv url: http://arxiv.org/abs/2005.09717v4
- Date: Tue, 5 Apr 2022 09:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:44:22.375696
- Title: Treatment recommendation with distributional targets
- Title(参考訳): 分布目標による治療勧告
- Authors: Anders Bredahl Kock and David Preinerstorfer and Bezirgen Veliyev
- Abstract要約: 実験に基づいて最善を尽くさなければならない意思決定者の課題を考察する。
治療勧告から得られる結果分布の所望性を機能分布特性を用いて測定する。
我々は2つの(近く)最適後悔政策を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of a decision maker who must provide the best possible
treatment recommendation based on an experiment. The desirability of the
outcome distribution resulting from the policy recommendation is measured
through a functional capturing the distributional characteristic that the
decision maker is interested in optimizing. This could be, e.g., its inherent
inequality, welfare, level of poverty or its distance to a desired outcome
distribution. If the functional of interest is not quasi-convex or if there are
constraints, the optimal recommendation may be a mixture of treatments. This
vastly expands the set of recommendations that must be considered. We
characterize the difficulty of the problem by obtaining maximal expected regret
lower bounds. Furthermore, we propose two (near) regret-optimal policies. The
first policy is static and thus applicable irrespectively of subjects arriving
sequentially or not in the course of the experimentation phase. The second
policy can utilize that subjects arrive sequentially by successively
eliminating inferior treatments and thus spends the sampling effort where it is
most needed.
- Abstract(参考訳): 実験に基づいて最善の治療法を推奨しなければならない意思決定者の問題を考察する。
政策推薦の結果生じる成果分布の望ましさを、意思決定者が最適化に関心を持つ分布特性を機能的に捉えて測定する。
これは、例えば、固有の不平等、福祉、貧困のレベル、または望ましい結果分布との距離などである。
興味の関数が準凸でない場合や制約がある場合、最適な推奨は治療の混合である。
これは考慮すべきレコメンデーションのセットを大幅に拡大します。
我々は,最大残差を低くすることで問題の難しさを特徴づける。
さらに,後悔の最適化策を2つ提案する。
第1の方針は静的であり、実験段階の経過に順次到着するか否かに関わらず適用可能である。
第2の方針は、劣等な治療を順次排除することで被験者が順次到着し、最も必要なサンプリングに費やすというものである。
関連論文リスト
- Are causal effect estimations enough for optimal recommendations under multitreatment scenarios? [2.4578723416255754]
異なる治療やコントロール下での潜在的な結果を比較するために、因果効果推定分析を含めることが不可欠である。
マルチトリートメント選択のための包括的方法論を提案する。
論文 参考訳(メタデータ) (2024-10-07T16:37:35Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究は, 陽性の潜在的な違反を含む最適治療規則の因果同定とロバストな評価について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は, SNAP給付のリマインダーデータ, 保険申請の無作為化促進, および電子監視による事前管理リリースに基づく3つのケーススタディである。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。
この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:29:25Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraints [0.0]
本研究は,各段階の個人に対して,その履歴に基づいて最適な治療課題を導出する最適動的治療体制の推定について検討する。
提案手法は, 下位帰納的帰納的帰納的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属
論文 参考訳(メタデータ) (2021-06-09T12:42:53Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。