論文の概要: Learning Optimal and Fair Policies for Online Allocation of Scarce Societal Resources from Data Collected in Deployment
- arxiv url: http://arxiv.org/abs/2311.13765v2
- Date: Mon, 11 Aug 2025 23:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.095491
- Title: Learning Optimal and Fair Policies for Online Allocation of Scarce Societal Resources from Data Collected in Deployment
- Title(参考訳): 展開時に収集したデータから骨格資源のオンライン配置のための最適かつ公正な政策の学習
- Authors: Bill Tang, Çağıl Koçyiğit, Eric Rice, Phebe Vayanos,
- Abstract要約: 当社は、予算制約を満たしつつ、期待される成果を最大化するオンラインポリシーを設計するために、デプロイメントで収集された管理データを使用します。
当社の政策は,ホームレスからの退去率を5.16%向上させ,人種ごとの配分や結果に公平な政策は,フェアネスの非常に低い価格で得られることを示す。
- 参考スコア(独自算出の注目度): 4.659762505466962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of allocating scarce societal resources of different types (e.g., permanent housing, deceased donor kidneys for transplantation, ventilators) to heterogeneous allocatees on a waitlist (e.g., people experiencing homelessness, individuals suffering from end-stage renal disease, Covid-19 patients) based on their observed covariates. We leverage administrative data collected in deployment to design an online policy that maximizes expected outcomes while satisfying budget constraints, in the long run. Our proposed policy waitlists each individual for the resource maximizing the difference between their estimated mean treatment outcome and the estimated resource dual-price or, roughly, the opportunity cost of using the resource. Resources are then allocated as they arrive, in a first-come first-serve fashion. We demonstrate that our data-driven policy almost surely asymptotically achieves the expected outcome of the optimal out-of-sample policy under mild technical assumptions. We extend our framework to incorporate various fairness constraints. We evaluate the performance of our approach on the problem of designing policies for allocating scarce housing resources to people experiencing homelessness in Los Angeles based on data from the homeless management information system. In particular, we show that using our policies improves rates of exit from homelessness by 5.16% and that policies that are fair in either allocation or outcomes by race come at a very low price of fairness.
- Abstract(参考訳): 本研究では, 異なるタイプの社会資源(永住性, 移植用ドナー腎, 人工呼吸器など)を, ウェイトリスト(ホームレス, 末期腎疾患, コビッド19の患者など)上での不均一な配置に割り当てることの問題点を, 観察された共変量に基づいて検討した。
デプロイメントで収集した管理データを活用して、長期的には予算制約を満たしながら、期待される成果を最大化するオンラインポリシーを設計します。
提案するポリシウェイトリストは,各リソースに対する評価平均処理結果と推定資源の2値値との差を最大化するか,あるいは大まかに言えば,リソースの利用機会コストを最大化する。
リソースが到着すると、第一級のサービスとしてリソースが割り当てられる。
我々は,我々のデータ駆動型政策が,穏やかな技術的前提の下で,最適なアウト・オブ・サンプル政策の期待結果をほぼ確実に達成できることを実証した。
フレームワークを拡張して、さまざまな公正な制約を取り入れます。
ホームレス管理情報システムから得られたデータをもとに,ロサンゼルスのホームレス体験者を対象に,不足する住宅資源を割り当てる政策を設計する上でのアプローチの有効性を評価した。
特に,我々の政策を用いることで,ホームレスからの退去率が5.16%向上し,人種ごとの配分や成果に公平な政策が極めて低い公正価格となることを示す。
関連論文リスト
- No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。
報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。
我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文 参考訳(メタデータ) (2025-06-16T08:42:31Z) - Optimal patient allocation for echocardiographic assessments [0.0]
我々は,患者のノショー確率を推定し,到着時間と受験期間の経験的分布を導出する。
我々は,SimPyを用いて離散イベントシミュレーションモデルを開発し,オープンソースPythonライブラリと統合する。
胎児と非胎児の比1:6、胎児と非胎児の比4:2の病院構成を考えると、オン・ザ・フライアロケーションは一般的により優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-17T17:51:23Z) - Preference-aware compensation policies for crowdsourced on-demand services [3.9244028387955017]
クラウドソーシングされたオンデマンドサービスは、コスト削減、サービス充足時間の短縮、適応性の向上、オンデマンドデリバリのコンテキストにおける持続可能な都市交通へのコントリビューションといったメリットを提供する。
しかし、クラウドソーシングを活用したオンデマンドプラットフォームの成功は、ギグワーカーの魅力的なオファーと収益性の確保のバランスをとるための補償策を見つけることに依存している。
本研究では、ギグワーカーの要求特化報酬を個別の時間枠で設定するオンデマンドプラットフォームにおける動的価格問題について検討する。
論文 参考訳(メタデータ) (2025-02-07T16:33:16Z) - Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources [47.57108369791273]
医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
医療資源割り当てプロトコルの普遍的な標準は存在しない。
本稿では,患者の疾患進行と患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:28:06Z) - Bayesian Inverse Transition Learning for Offline Settings [30.10905852013852]
強化学習は、医療や教育などの領域におけるシーケンシャルな意思決定に一般的に用いられる。
我々は、遷移力学の後方分布を確実に学習するために、デシダラタを捕捉する新しい制約ベースのアプローチを提案する。
その結果、制約を用いることで、高いパフォーマンスのポリシーを学習し、異なるデータセットに対するポリシーのばらつきを著しく低減することを示した。
論文 参考訳(メタデータ) (2023-08-09T17:08:29Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Learning Resource Allocation Policies from Observational Data with an
Application to Homeless Services Delivery [9.65131987576314]
本研究では、観察データから、異種個体を効果的にマッチングし、異なるタイプの資源を不足させる公正かつ解釈可能な政策を学習する問題について研究する。
我々は、合成データと実世界のデータを用いて広範な分析を行う。
論文 参考訳(メタデータ) (2022-01-25T02:32:55Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。