論文の概要: Optimal Policy Learning with Observational Data in Multi-Action Scenarios: Estimation, Risk Preference, and Potential Failures
- arxiv url: http://arxiv.org/abs/2403.20250v1
- Date: Fri, 29 Mar 2024 15:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:14:57.435425
- Title: Optimal Policy Learning with Observational Data in Multi-Action Scenarios: Estimation, Risk Preference, and Potential Failures
- Title(参考訳): マルチアクションシナリオにおける観測データを用いた最適政策学習:推定、リスク優先、潜在的な失敗
- Authors: Giovanni Cerulli,
- Abstract要約: 本稿では、最適政策学習と観測データを扱う。
それは、見積もり、リスク優先、潜在的な失敗の3つの部分に分かれています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper deals with optimal policy learning (OPL) with observational data, i.e. data-driven optimal decision-making, in multi-action (or multi-arm) settings, where a finite set of decision options is available. It is organized in three parts, where I discuss respectively: estimation, risk preference, and potential failures. The first part provides a brief review of the key approaches to estimating the reward (or value) function and optimal policy within this context of analysis. Here, I delineate the identification assumptions and statistical properties related to offline optimal policy learning estimators. In the second part, I delve into the analysis of decision risk. This analysis reveals that the optimal choice can be influenced by the decision maker's attitude towards risks, specifically in terms of the trade-off between reward conditional mean and conditional variance. Here, I present an application of the proposed model to real data, illustrating that the average regret of a policy with multi-valued treatment is contingent on the decision-maker's attitude towards risk. The third part of the paper discusses the limitations of optimal data-driven decision-making by highlighting conditions under which decision-making can falter. This aspect is linked to the failure of the two fundamental assumptions essential for identifying the optimal choice: (i) overlapping, and (ii) unconfoundedness. Some conclusions end the paper.
- Abstract(参考訳): 本稿では,観測データを用いた最適政策学習(OPL)をマルチアクション(あるいはマルチアーム)設定で扱う。
それは、見積もり、リスク優先、潜在的な失敗の3つの部分に分かれています。
第1部では、この分析の文脈における報酬(または価値)関数と最適ポリシーを推定するための重要なアプローチについて、簡単なレビューを提供している。
ここでは、オフライン最適政策学習推定器に関する識別仮定と統計特性について述べる。
第2部では、意思決定リスクの分析を掘り下げます。
この分析から, 最適選択は, リスクに対する意思決定者の態度, 特に報酬条件平均と条件変数のトレードオフに影響を及ぼす可能性が示唆された。
本稿では,提案手法を実データに適用し,多値化政策に対する平均的後悔はリスクに対する意思決定者の態度に起因していることを示す。
論文の第3部では、意思決定が困難となる条件を強調することにより、最適なデータ駆動型意思決定の限界について論じる。
この側面は、最適選択を特定するのに不可欠な2つの基本的な仮定の失敗と関連している。
(i)重なり、そして
(二)未定。
いくつかの結論が論文を締めくくった。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Uniform Pessimistic Risk and its Optimal Portfolio [0.6445605125467574]
本稿では,そのリスクに基づいて最適なポートフォリオを得るために,テキストテクスチュニフォーム悲観的リスクと計算アルゴリズムという,$alpha$-riskの積分を提案する。
3つのストックデータセット(S&P500、CSI500、KOSPI200)の実データ分析は、提案されたリスクとポートフォリオモデルの有用性を示している。
論文 参考訳(メタデータ) (2023-03-02T09:41:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Bayesian Persuasion for Algorithmic Recourse [28.586165301962485]
いくつかの状況では、根底にある予測モデルはゲームを避け、競争上の優位性を維持するために意図的に秘密にされている。
我々はベイズ的説得のゲームのような設定を捉え、意思決定者は、例えばアクションレコメンデーションのようなシグナルを、望ましい行動を取るためのインセンティブを与える決定対象に送信する。
本稿では,最適化問題として最適なベイズ的インセンティブ互換(BIC)行動推薦ポリシーを見出すという意思決定者の問題を定式化し,線形プログラムを用いて解を特徴づける。
論文 参考訳(メタデータ) (2021-12-12T17:18:54Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Off-Policy Optimization of Portfolio Allocation Policies under
Constraints [0.8848340429852071]
財務の動的ポートフォリオ最適化問題には、投資家の好みとリスクによって、さまざまな制約に従う学習ポリシーが頻繁に必要です。
本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。
論文 参考訳(メタデータ) (2020-12-21T22:22:04Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Learning Robust Decision Policies from Observational Data [21.05564340986074]
高いコストで成果のリスクを減らすような堅牢な政策を学ぶことは、興味深いことです。
本研究では,特定のレベルでのコスト分布のテールを削減するための政策学習手法を開発した。
論文 参考訳(メタデータ) (2020-06-03T16:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。