論文の概要: Learning Optimal and Fair Policies for Online Allocation of Scarce
Societal Resources from Data Collected in Deployment
- arxiv url: http://arxiv.org/abs/2311.13765v1
- Date: Thu, 23 Nov 2023 01:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:43:16.140731
- Title: Learning Optimal and Fair Policies for Online Allocation of Scarce
Societal Resources from Data Collected in Deployment
- Title(参考訳): 展開時に収集したデータから骨格資源のオンライン配置のための最適かつ公正な政策の学習
- Authors: Bill Tang, \c{C}a\u{g}{\i}l Ko\c{c}yi\u{g}it, Eric Rice, Phebe Vayanos
- Abstract要約: 当社は、予算制約を満たしつつ、期待される成果を最大化するオンラインポリシーを設計するために、デプロイメントで収集された管理データを使用します。
当社の政策は,ホームレスからの退去率を1.9%向上させ,人種ごとの配分や結果に公平な政策は,フェアネスの非常に低い価格で得られることを示す。
- 参考スコア(独自算出の注目度): 5.0904557821667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of allocating scarce societal resources of different
types (e.g., permanent housing, deceased donor kidneys for transplantation,
ventilators) to heterogeneous allocatees on a waitlist (e.g., people
experiencing homelessness, individuals suffering from end-stage renal disease,
Covid-19 patients) based on their observed covariates. We leverage
administrative data collected in deployment to design an online policy that
maximizes expected outcomes while satisfying budget constraints, in the long
run. Our proposed policy waitlists each individual for the resource maximizing
the difference between their estimated mean treatment outcome and the estimated
resource dual-price or, roughly, the opportunity cost of using the resource.
Resources are then allocated as they arrive, in a first-come first-serve
fashion. We demonstrate that our data-driven policy almost surely
asymptotically achieves the expected outcome of the optimal out-of-sample
policy under mild technical assumptions. We extend our framework to incorporate
various fairness constraints. We evaluate the performance of our approach on
the problem of designing policies for allocating scarce housing resources to
people experiencing homelessness in Los Angeles based on data from the homeless
management information system. In particular, we show that using our policies
improves rates of exit from homelessness by 1.9% and that policies that are
fair in either allocation or outcomes by race come at a very low price of
fairness.
- Abstract(参考訳): 本研究では,待機リスト上の異種アロケート(ホームレス,末期腎疾患患者,covid-19患者など)に対して,異なるタイプの希少社会資源(永住,移植用ドナー腎臓,人工呼吸器など)を,観察された共変量に基づいて割り当てる問題について検討した。
デプロイメントで収集した管理データを活用して、長期的には予算制約を満たしながら、期待される成果を最大化するオンラインポリシーを設計します。
提案するポリシウェイトリストは,各リソースに対する評価平均処理結果と推定資源の2値値との差を最大化するか,あるいは大まかに言えば,リソースの利用機会コストを最大化する。
リソースは、最初の最初のサービスとして、到着時に割り当てられる。
我々は,我々のデータ駆動型政策が,穏やかな技術的前提の下で,最適なサンプル外政策の期待結果をほぼ確実に達成できることを実証した。
フレームワークを拡張して、さまざまな公正な制約を取り入れます。
ホームレス管理情報システムから得られたデータをもとに,ロサンゼルスのホームレス体験者を対象に,不足する住宅資源を割り当てる政策を設計する上でのアプローチの有効性を評価した。
特に,我々の政策は,ホームレスからの退去率を1.9%向上させ,人種による配分や結果に公平な政策は,非常に低いフェアネス価格となることを示す。
関連論文リスト
- Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources [47.57108369791273]
医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
医療資源割り当てプロトコルの普遍的な標準は存在しない。
本稿では,患者の疾患進行と患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:28:06Z) - Bayesian Inverse Transition Learning for Offline Settings [30.10905852013852]
強化学習は、医療や教育などの領域におけるシーケンシャルな意思決定に一般的に用いられる。
我々は、遷移力学の後方分布を確実に学習するために、デシダラタを捕捉する新しい制約ベースのアプローチを提案する。
その結果、制約を用いることで、高いパフォーマンスのポリシーを学習し、異なるデータセットに対するポリシーのばらつきを著しく低減することを示した。
論文 参考訳(メタデータ) (2023-08-09T17:08:29Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Learning Resource Allocation Policies from Observational Data with an
Application to Homeless Services Delivery [9.65131987576314]
本研究では、観察データから、異種個体を効果的にマッチングし、異なるタイプの資源を不足させる公正かつ解釈可能な政策を学習する問題について研究する。
我々は、合成データと実世界のデータを用いて広範な分析を行う。
論文 参考訳(メタデータ) (2022-01-25T02:32:55Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。