論文の概要: Learning Resource Allocation Policies from Observational Data with an
Application to Homeless Services Delivery
- arxiv url: http://arxiv.org/abs/2201.10053v2
- Date: Fri, 3 Jun 2022 20:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 14:28:06.741506
- Title: Learning Resource Allocation Policies from Observational Data with an
Application to Homeless Services Delivery
- Title(参考訳): 観測データからの資源配分政策の学習と在宅サービス提供への応用
- Authors: Aida Rahmattalabi, Phebe Vayanos, Kathryn Dullerud, Eric Rice
- Abstract要約: 本研究では、観察データから、異種個体を効果的にマッチングし、異なるタイプの資源を不足させる公正かつ解釈可能な政策を学習する問題について研究する。
我々は、合成データと実世界のデータを用いて広範な分析を行う。
- 参考スコア(独自算出の注目度): 9.65131987576314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning, from observational data, fair and
interpretable policies that effectively match heterogeneous individuals to
scarce resources of different types. We model this problem as a multi-class
multi-server queuing system where both individuals and resources arrive
stochastically over time. Each individual, upon arrival, is assigned to a queue
where they wait to be matched to a resource. The resources are assigned in a
first come first served (FCFS) fashion according to an eligibility structure
that encodes the resource types that serve each queue. We propose a methodology
based on techniques in modern causal inference to construct the individual
queues as well as learn the matching outcomes and provide a mixed-integer
optimization (MIO) formulation to optimize the eligibility structure. The MIO
problem maximizes policy outcome subject to wait time and fairness constraints.
It is very flexible, allowing for additional linear domain constraints. We
conduct extensive analyses using synthetic and real-world data. In particular,
we evaluate our framework using data from the U.S. Homeless Management
Information System (HMIS). We obtain wait times as low as an FCFS policy while
improving the rate of exit from homelessness for underserved or vulnerable
groups (7% higher for the Black individuals and 15% higher for those below 17
years old) and overall.
- Abstract(参考訳): 本研究では,観察データから不均質な個人と異なる種類の資源の不足に効果的にマッチする公正かつ解釈可能な政策まで,学習の課題について検討する。
我々はこの問題を,個人とリソースが時間とともに確率的に到着するマルチクラスマルチサーバキューシステムとしてモデル化する。
各個人は到着するとキューに割り当てられ、リソースにマッチするのを待つ。
リソースは、各キューにサービスするリソースタイプをエンコードする適格性構造に従って、最初のcome first serving(fcfs)方式で割り当てられる。
本稿では,現代の因果推論の手法に基づく手法を提案し,各キューの構築とマッチング結果の学習を行い,その信頼性構造を最適化するためのMIO(mixed-integer Optimization)の定式化を提案する。
mio問題は、待ち時間と公平性の制約による政策成果を最大化する。
非常に柔軟で、追加の線形ドメイン制約を可能にする。
合成データと実世界データを用いて広範な分析を行う。
特に,米国ホームレスマネジメント情報システム(HMIS)のデータを用いたフレームワークの評価を行った。
FCFSの方針に準じて待ち時間が低くなり,貧弱なグループや脆弱なグループではホームレスからの退避率(黒人では7%,17歳未満では15%)が向上した。
関連論文リスト
- Efficient Reinforcement Learning for Routing Jobs in Heterogeneous
Queueing Systems [23.973033446355167]
我々は、中央キューに到着するジョブをヘテロジニアスサーバのシステムに効率的にルーティングする問題を考察する。
均質なシステムとは異なり、キュー長が一定のしきい値を超えた場合、ジョブを遅いサーバにルーティングするしきい値ポリシーは、ワンファストワンスローの2サーバシステムに最適であることが知られている。
本稿では,低次元ソフトしきい値パラメータ化を用いた効率的なポリシー勾配に基づくアルゴリズムであるACHQを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:22:41Z) - Learning Optimal and Fair Policies for Online Allocation of Scarce
Societal Resources from Data Collected in Deployment [5.0904557821667]
当社は、予算制約を満たしつつ、期待される成果を最大化するオンラインポリシーを設計するために、デプロイメントで収集された管理データを使用します。
当社の政策は,ホームレスからの退去率を1.9%向上させ,人種ごとの配分や結果に公平な政策は,フェアネスの非常に低い価格で得られることを示す。
論文 参考訳(メタデータ) (2023-11-23T01:40:41Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Quantifying the Cost of Learning in Queueing Systems [4.784875233446591]
待ち行列における学習コスト (CLQ) はパラメータの不確実性に起因する平均待ち行列長の最大増加を定量化する新しい指標である。
本稿では,Lyapunov と Bandit 分析をブリッジし,幅広いアルゴリズムの保証を提供するCLQ の統一解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-15T14:50:12Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。
本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:55:48Z) - Unsupervised Resource Allocation with Graph Neural Networks [0.0]
本研究では,教師なしの方法で資源の配分方法を学ぶことによって,グローバルなユーティリティ関数を最大化する手法を提案する。
我々は,GNNを用いて最適に近いアロケーションポリシーの報酬構造を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-17T18:44:04Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Online Learning Demands in Max-min Fairness [91.37280766977923]
本稿では,複数のユーザ間の希少リソースの割り当て機構について,効率的で公平で戦略に準拠した方法で記述する。
このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される可能性がある。
各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。
論文 参考訳(メタデータ) (2020-12-15T22:15:20Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。