論文の概要: Policy learning for many outcomes of interest: Combining optimal policy
trees with multi-objective Bayesian optimisation
- arxiv url: http://arxiv.org/abs/2212.06312v1
- Date: Tue, 13 Dec 2022 01:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:10:36.553409
- Title: Policy learning for many outcomes of interest: Combining optimal policy
trees with multi-objective Bayesian optimisation
- Title(参考訳): 政策学習 : 多目的ベイズ最適化と最適政策木の組み合わせ
- Authors: Patrick Rehill
- Abstract要約: 本稿では,MOPoL(Multi-Objective Policy Learning)というアプローチを提案する。
政策学習のための最適決定木と多目的ベイズ最適化アプローチを組み合わせて、複数の結果の間のトレードオフを探索する。
本手法はモロッコにおける条件付現金の実際のケーススタディに適用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for learning optimal policies use causal machine learning models to
create human-interpretable rules for making choices around the allocation of
different policy interventions. However, in realistic policy-making contexts,
decision-makers often care about trade-offs between outcomes, not just
singlemindedly maximising utility for one outcome. This paper proposes an
approach termed Multi-Objective Policy Learning (MOPoL) which combines optimal
decision trees for policy learning with a multi-objective Bayesian optimisation
approach to explore the trade-off between multiple outcomes. It does this by
building a Pareto frontier of non-dominated models for different hyperparameter
settings. The key here is that a low-cost surrogate function can be an accurate
proxy for the very computationally costly optimal tree in terms of expected
regret. This surrogate can be fit many times with different hyperparameter
values to proxy the performance of the optimal model. The method is applied to
a real-world case-study of conditional cash transfers in Morocco where hybrid
(partially optimal, partially greedy) policy trees provide good performance as
a surrogate for optimal trees while being computationally cheap enough to
feasibly fit a Pareto frontier.
- Abstract(参考訳): 最適ポリシーの学習方法は、因果機械学習モデルを使用して、異なるポリシー介入の割り当てに関する選択を行うための人間解釈可能なルールを作成する。
しかし、現実的な政策決定の文脈では、意思決定者は結果間のトレードオフを気にすることが多い。
本稿では,政策学習のための最適決定木と,複数の成果間のトレードオフを探索する多目的ベイズ最適化手法を組み合わせた,多目的政策学習(mopol)と呼ばれるアプローチを提案する。
これは、異なるハイパーパラメータ設定のための非支配モデルのParetoフロンティアを構築することで実現している。
ここでの鍵は、低コストのサロゲート関数は、期待された後悔の観点から、非常に計算コストのかかる最適ツリーの正確なプロキシになり得ることである。
このサロゲートは、最適なモデルの性能をプロキシするために、異なるハイパーパラメータ値に何度も適合することができる。
この手法はモロッコにおける条件付現金の現実的なケーススタディに適用され、ハイブリッド(部分的に最適、部分的に欲求)ポリシーツリーは最適な木を代用し、計算的に安価でパレートフロンティアに適合させることができる。
関連論文リスト
- Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning [14.260168974085376]
本稿では多目的強化学習(MORL)について検討する。
複数の報酬関数の存在下で最適なポリシーを学ぶことに焦点を当てている。
MORLの成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。
論文 参考訳(メタデータ) (2024-07-24T17:58:49Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning [13.627087954965695]
好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-01-04T09:17:53Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Optimal Decision Tree Policies for Markov Decision Processes [7.995360025953931]
マルコフ決定過程(MPD)におけるサイズ制限決定木の最適化について検討する。
これは、模倣学習の固有の欠点、すなわち、複雑なポリシーが、サイズ制限木を使って表現できないことによるものである。
一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、OMDTは3の深さに制限され、しばしば最適限に近い性能を示す。
論文 参考訳(メタデータ) (2023-01-30T18:51:02Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Pareto Set Learning for Expensive Multi-Objective Optimization [5.419608513284392]
膨大な多目的最適化問題は、多くの現実世界のアプリケーションで見られる。
本稿では,MOBOのパレート集合全体を近似する学習に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T09:41:54Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Generalized and Scalable Optimal Sparse Decision Trees [56.35541305670828]
様々な目的に対して最適な決定木を生成する手法を提案する。
また,連続変数が存在する場合に最適な結果が得られるスケーラブルなアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-06-15T19:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。