論文の概要: Policy learning for many outcomes of interest: Combining optimal policy
trees with multi-objective Bayesian optimisation
- arxiv url: http://arxiv.org/abs/2212.06312v2
- Date: Tue, 17 Oct 2023 05:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 22:49:45.538925
- Title: Policy learning for many outcomes of interest: Combining optimal policy
trees with multi-objective Bayesian optimisation
- Title(参考訳): 政策学習 : 多目的ベイズ最適化と最適政策木の組み合わせ
- Authors: Patrick Rehill and Nicholas Biddle
- Abstract要約: 多目的政策学習は、ポリシー学習のための最適な決定木と、多目的ベイズ最適化アプローチを組み合わせる。
本手法はケニアにおける抗マラリア薬の非価格設定の現実世界のケーススタディに適用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for learning optimal policies use causal machine learning models to
create human-interpretable rules for making choices around the allocation of
different policy interventions. However, in realistic policy-making contexts,
decision-makers often care about trade-offs between outcomes, not just
single-mindedly maximising utility for one outcome. This paper proposes an
approach termed Multi-Objective Policy Learning (MOPoL) which combines optimal
decision trees for policy learning with a multi-objective Bayesian optimisation
approach to explore the trade-off between multiple outcomes. It does this by
building a Pareto frontier of non-dominated models for different hyperparameter
settings which govern outcome weighting. The key here is that a low-cost greedy
tree can be an accurate proxy for the very computationally costly optimal tree
for the purposes of making decisions which means models can be repeatedly fit
to learn a Pareto frontier. The method is applied to a real-world case-study of
non-price rationing of anti-malarial medication in Kenya.
- Abstract(参考訳): 最適ポリシーの学習方法は、因果機械学習モデルを使用して、異なるポリシー介入の割り当てに関する選択を行うための人間解釈可能なルールを作成する。
しかし、現実的な政策決定の文脈では、意思決定者は成果間のトレードオフを気にすることが多い。
本稿では,政策学習のための最適決定木と,複数の成果間のトレードオフを探索する多目的ベイズ最適化手法を組み合わせた,多目的政策学習(mopol)と呼ばれるアプローチを提案する。
これは、結果重み付けを規定する異なるハイパーパラメータ設定のための非支配モデルのparetoフロンティアを構築することによって実現される。
ここでの鍵となるのは、低コストのグリーディツリーが、計算的にコストのかかる最適ツリーの正確なプロキシになり、決定を下すために、モデルが繰り返しパレートフロンティアを学習できることを意味する。
本手法はケニアにおける抗マラリア薬の非価格設定の実例研究に適用される。
関連論文リスト
- Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning [13.627087954965695]
好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-01-04T09:17:53Z) - Pessimistic Off-Policy Multi-Objective Optimization [22.525654101072252]
既存のポリシーによって収集されたデータから,多目的ポリシーのオフライン最適化について検討する。
本稿では,多目的ポリシー値に対する悲観的推定器を提案する。
論文 参考訳(メタデータ) (2023-10-28T06:50:15Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Optimal Decision Tree Policies for Markov Decision Processes [7.995360025953931]
マルコフ決定過程(MPD)におけるサイズ制限決定木の最適化について検討する。
これは、模倣学習の固有の欠点、すなわち、複雑なポリシーが、サイズ制限木を使って表現できないことによるものである。
一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、OMDTは3の深さに制限され、しばしば最適限に近い性能を示す。
論文 参考訳(メタデータ) (2023-01-30T18:51:02Z) - Pareto Set Learning for Expensive Multi-Objective Optimization [5.419608513284392]
膨大な多目的最適化問題は、多くの現実世界のアプリケーションで見られる。
本稿では,MOBOのパレート集合全体を近似する学習に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T09:41:54Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Generalized and Scalable Optimal Sparse Decision Trees [56.35541305670828]
様々な目的に対して最適な決定木を生成する手法を提案する。
また,連続変数が存在する場合に最適な結果が得られるスケーラブルなアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-06-15T19:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。