論文の概要: Optimal Policies for the Homogeneous Selective Labels Problem
- arxiv url: http://arxiv.org/abs/2011.01381v1
- Date: Mon, 2 Nov 2020 23:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:13:25.848164
- Title: Optimal Policies for the Homogeneous Selective Labels Problem
- Title(参考訳): 均質な選択ラベル問題に対する最適政策
- Authors: Dennis Wei
- Abstract要約: 本稿では,選択ラベルに直面する意思決定方針の学習について述べる。
割引総報酬を最大化するためには、最適政策がしきい値ポリシーであることが示される。
数え切れない無限水平平均報酬に対して、最適政策は全ての状態において肯定的な受容確率を持つ。
- 参考スコア(独自算出の注目度): 19.54948759840131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selective labels are a common feature of consequential decision-making
applications, referring to the lack of observed outcomes under one of the
possible decisions. This paper reports work in progress on learning decision
policies in the face of selective labels. The setting considered is both a
simplified homogeneous one, disregarding individuals' features to facilitate
determination of optimal policies, and an online one, to balance costs incurred
in learning with future utility. For maximizing discounted total reward, the
optimal policy is shown to be a threshold policy, and the problem is one of
optimal stopping. In contrast, for undiscounted infinite-horizon average
reward, optimal policies have positive acceptance probability in all states.
Future work stemming from these results is discussed.
- Abstract(参考訳): 選択的ラベルは一連の意思決定アプリケーションの一般的な特徴であり、考えられる決定の1つの下で観察された結果が欠如していることに言及している。
本稿では,選択ラベルに直面する意思決定方針の学習について述べる。
最適政策の決定を容易にするために個人の特徴を無視し、将来のユーティリティと学習において生じるコストのバランスをとるためのオンライン設定の両方が、単純化された同質な設定である。
割引総報酬を最大化するために、最適政策は閾値政策であることが示され、問題は最適停止の1つである。
対照的に、数え切れない無限水平平均報酬の場合、最適ポリシーは全ての状態において肯定的な受容確率を持つ。
これらの結果から生じる今後の課題について論じる。
関連論文リスト
- Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Fair Set Selection: Meritocracy and Social Welfare [6.205308371824033]
候補集団から一組の個人を選定する問題を実用的最大化問題として定式化する。
意思決定者の視点からは、期待されるユーティリティを最大化する選択ポリシーを見つけることと等価である。
我々の枠組みは、選択政策に関して個人が期待する限界貢献(EMC)の概念を、長所主義からの逸脱の尺度として導く。
論文 参考訳(メタデータ) (2021-02-23T20:36:36Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。