論文の概要: Learning Resource Allocation Policies from Observational Data with an
Application to Homeless Services Delivery
- arxiv url: http://arxiv.org/abs/2201.10053v1
- Date: Tue, 25 Jan 2022 02:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 16:07:50.474123
- Title: Learning Resource Allocation Policies from Observational Data with an
Application to Homeless Services Delivery
- Title(参考訳): 観測データからの資源配分政策の学習と在宅サービス提供への応用
- Authors: Aida Rahmattalabi, Phebe Vayanos, Kathryn Dullerud, Eric Rice
- Abstract要約: 本研究では、観察データから、異種個体を効果的にマッチングし、異なるタイプの資源を不足させる公正かつ解釈可能な政策を学習する問題について研究する。
我々は、合成データと実世界のデータを用いて広範な分析を行う。
- 参考スコア(独自算出の注目度): 9.65131987576314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning, from observational data, fair and
interpretable policies that effectively match heterogeneous individuals to
scarce resources of different types. We model this problem as a multi-class
multi-server queuing system where both individuals and resources arrive
stochastically over time. Each individual, upon arrival, is assigned to a queue
where they wait to be matched to a resource. The resources are assigned in a
first come first served (FCFS) fashion according to an eligibility structure
that encodes the resource types that serve each queue. We propose a methodology
based on techniques in modern causal inference to construct the individual
queues as well as learn the matching outcomes and provide a mixed-integer
optimization (MIO) formulation to optimize the eligibility structure. The MIO
problem maximizes policy outcome subject to wait time and fairness constraints.
It is very flexible, allowing for additional linear domain constraints. We
conduct extensive analyses using synthetic and real-world data. In particular,
we evaluate our framework using data from the U.S. Homeless Management
Information System (HMIS). We obtain wait times as low as an FCFS policy while
improving the rate of exit from homelessness for underserved or vulnerable
groups (7% higher for the Black individuals and 15% higher for those below 17
years old) and overall.
- Abstract(参考訳): 本研究では,観察データから不均質な個人と異なる種類の資源の不足に効果的にマッチする公正かつ解釈可能な政策まで,学習の課題について検討する。
我々はこの問題を,個人とリソースが時間とともに確率的に到着するマルチクラスマルチサーバキューシステムとしてモデル化する。
各個人は到着するとキューに割り当てられ、リソースにマッチするのを待つ。
リソースは、各キューにサービスするリソースタイプをエンコードする適格性構造に従って、最初のcome first serving(fcfs)方式で割り当てられる。
本稿では,現代の因果推論の手法に基づく手法を提案し,各キューの構築とマッチング結果の学習を行い,その信頼性構造を最適化するためのMIO(mixed-integer Optimization)の定式化を提案する。
mio問題は、待ち時間と公平性の制約による政策成果を最大化する。
非常に柔軟で、追加の線形ドメイン制約を可能にする。
合成データと実世界データを用いて広範な分析を行う。
特に,米国ホームレスマネジメント情報システム(HMIS)のデータを用いたフレームワークの評価を行った。
FCFSの方針に準じて待ち時間が低くなり,貧弱なグループや脆弱なグループではホームレスからの退避率(黒人では7%,17歳未満では15%)が向上した。
関連論文リスト
- Dynamic Matching with Post-allocation Service and its Application to Refugee Resettlement [1.9689888982532262]
米国の主要難民再定住機関との協力により、我々は、新しい到着(避難ケース)が静的リソースの1つ(固定年限の場所)と即時かつ不可逆的に一致しなければならない動的なマッチング問題を調査した。
サービスの時間的特性を考えると、サーバは特定の時点では利用できないため、動的リソースとして参照する。一致すれば、ケースは第一級サービスとして利用できるようになるのを待つことになる。
論文 参考訳(メタデータ) (2024-10-30T13:17:38Z) - Active Learning for Fair and Stable Online Allocations [6.23798328186465]
我々は、オンラインリソース割り当てプロセスの各エポックにおいて、エージェントの特定のサブセットからのフィードバックを検討する。
提案アルゴリズムは,様々な測度に対して,時系列のサブ線形な後悔境界を提供する。
我々は,効率的な意思決定には広範なフィードバックは必要とせず,様々な問題クラスに対して効率的な結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-06-20T23:23:23Z) - A Resource-Adaptive Approach for Federated Learning under Resource-Constrained Environments [22.038826059430242]
本稿では,不均一な制約リソースを持つ複数のクライアントを対象とする,基礎的連合学習(FL)問題について検討する。
資源適応型非同期フェデレーション学習アルゴリズムであるFed-RAAを提案する。
論文 参考訳(メタデータ) (2024-06-19T08:55:40Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Learning Optimal and Fair Policies for Online Allocation of Scarce
Societal Resources from Data Collected in Deployment [5.0904557821667]
当社は、予算制約を満たしつつ、期待される成果を最大化するオンラインポリシーを設計するために、デプロイメントで収集された管理データを使用します。
当社の政策は,ホームレスからの退去率を1.9%向上させ,人種ごとの配分や結果に公平な政策は,フェアネスの非常に低い価格で得られることを示す。
論文 参考訳(メタデータ) (2023-11-23T01:40:41Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。
本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:55:48Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Online Learning Demands in Max-min Fairness [91.37280766977923]
本稿では,複数のユーザ間の希少リソースの割り当て機構について,効率的で公平で戦略に準拠した方法で記述する。
このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される可能性がある。
各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。
論文 参考訳(メタデータ) (2020-12-15T22:15:20Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。