論文の概要: Bayesian Safe Policy Learning with Chance Constrained Optimization:
Application to Military Security Assessment during the Vietnam War
- arxiv url: http://arxiv.org/abs/2307.08840v1
- Date: Mon, 17 Jul 2023 20:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 17:20:19.582559
- Title: Bayesian Safe Policy Learning with Chance Constrained Optimization:
Application to Military Security Assessment during the Vietnam War
- Title(参考訳): 確率制約付き最適化によるベイズ安全政策学習--ベトナム戦争中の軍事安全評価への応用
- Authors: Zeyang Jia, Eli Ben-Michael and Kosuke Imai
- Abstract要約: ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。
第一に、既存のアルゴリズムよりも悪い結果をもたらすリスクを特徴づけ、制御することが不可欠である。
本稿では,後続のACRiskを制御しながら,後続の期待値を最大化するベイズ政策学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithmic and data-driven decisions and recommendations are commonly used
in high-stakes decision-making settings such as criminal justice, medicine, and
public policy. We investigate whether it would have been possible to improve a
security assessment algorithm employed during the Vietnam War, using outcomes
measured immediately after its introduction in late 1969. This empirical
application raises several methodological challenges that frequently arise in
high-stakes algorithmic decision-making. First, before implementing a new
algorithm, it is essential to characterize and control the risk of yielding
worse outcomes than the existing algorithm. Second, the existing algorithm is
deterministic, and learning a new algorithm requires transparent extrapolation.
Third, the existing algorithm involves discrete decision tables that are common
but difficult to optimize over.
To address these challenges, we introduce the Average Conditional Risk
(ACRisk), which first quantifies the risk that a new algorithmic policy leads
to worse outcomes for subgroups of individual units and then averages this over
the distribution of subgroups. We also propose a Bayesian policy learning
framework that maximizes the posterior expected value while controlling the
posterior expected ACRisk. This framework separates the estimation of
heterogeneous treatment effects from policy optimization, enabling flexible
estimation of effects and optimization over complex policy classes. We
characterize the resulting chance-constrained optimization problem as a
constrained linear programming problem. Our analysis shows that compared to the
actual algorithm used during the Vietnam War, the learned algorithm assesses
most regions as more secure and emphasizes economic and political factors over
military factors.
- Abstract(参考訳): アルゴリズム的およびデータ駆動的な決定と勧告は、刑事司法、医療、公共政策などの高度な意思決定設定で一般的に使用される。
1969年後半のベトナム戦争直後の調査結果をもとに,ベトナム戦争におけるセキュリティ評価アルゴリズムの改善が可能か検討した。
この経験的応用は、アルゴリズム的意思決定において頻繁に発生する方法論的課題を提起する。
まず、新しいアルゴリズムを実装する前に、既存のアルゴリズムよりも悪い結果をもたらすリスクを特徴づけ、制御することが不可欠である。
第二に、既存のアルゴリズムは決定論的であり、新しいアルゴリズムを学習するには透明な外挿が必要である。
第三に、既存のアルゴリズムは、一般的なが最適化が難しい離散的な決定テーブルを含んでいる。
これらの課題に対処するために、我々はまず、新しいアルゴリズムポリシーが個々のサブグループに対して悪い結果をもたらすリスクを定量化し、それをサブグループの分布よりも平均化するAverage Conditional Risk (ACRisk)を導入する。
また,後方予測ACRiskを制御しながら,後方予測値を最大化するベイズ政策学習フレームワークを提案する。
このフレームワークは、不均一な処理効果をポリシー最適化から切り離し、複雑なポリシークラスに対する影響の柔軟な推定と最適化を可能にする。
結果の確率制約最適化問題を制約線形プログラミング問題として特徴付ける。
ベトナム戦争における実際のアルゴリズムと比較して,学習アルゴリズムは,ほとんどの地域を軍事的要因よりも経済的・政治的要因を重視し,より安全であると評価した。
関連論文リスト
- Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。
このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文 参考訳(メタデータ) (2024-07-18T09:17:47Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence [9.607937067646617]
本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。
このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。
理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
論文 参考訳(メタデータ) (2022-01-24T18:29:23Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。