Fugu-MT 論文翻訳(概要): Learning Resource Allocation Policies from Observational Data with an Application to Homeless Services Delivery

論文の概要: Learning Resource Allocation Policies from Observational Data with an Application to Homeless Services Delivery

arxiv url: http://arxiv.org/abs/2201.10053v2
Date: Fri, 3 Jun 2022 20:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-19 14:28:06.741506
Title: Learning Resource Allocation Policies from Observational Data with an Application to Homeless Services Delivery
Title（参考訳）: 観測データからの資源配分政策の学習と在宅サービス提供への応用
Authors: Aida Rahmattalabi, Phebe Vayanos, Kathryn Dullerud, Eric Rice
Abstract要約: 本研究では、観察データから、異種個体を効果的にマッチングし、異なるタイプの資源を不足させる公正かつ解釈可能な政策を学習する問題について研究する。我々は、合成データと実世界のデータを用いて広範な分析を行う。
参考スコア（独自算出の注目度）: 9.65131987576314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of learning, from observational data, fair and interpretable policies that effectively match heterogeneous individuals to scarce resources of different types. We model this problem as a multi-class multi-server queuing system where both individuals and resources arrive stochastically over time. Each individual, upon arrival, is assigned to a queue where they wait to be matched to a resource. The resources are assigned in a first come first served (FCFS) fashion according to an eligibility structure that encodes the resource types that serve each queue. We propose a methodology based on techniques in modern causal inference to construct the individual queues as well as learn the matching outcomes and provide a mixed-integer optimization (MIO) formulation to optimize the eligibility structure. The MIO problem maximizes policy outcome subject to wait time and fairness constraints. It is very flexible, allowing for additional linear domain constraints. We conduct extensive analyses using synthetic and real-world data. In particular, we evaluate our framework using data from the U.S. Homeless Management Information System (HMIS). We obtain wait times as low as an FCFS policy while improving the rate of exit from homelessness for underserved or vulnerable groups (7% higher for the Black individuals and 15% higher for those below 17 years old) and overall.
Abstract（参考訳）: 本研究では,観察データから不均質な個人と異なる種類の資源の不足に効果的にマッチする公正かつ解釈可能な政策まで,学習の課題について検討する。我々はこの問題を,個人とリソースが時間とともに確率的に到着するマルチクラスマルチサーバキューシステムとしてモデル化する。各個人は到着するとキューに割り当てられ、リソースにマッチするのを待つ。リソースは、各キューにサービスするリソースタイプをエンコードする適格性構造に従って、最初のcome first serving(fcfs)方式で割り当てられる。本稿では,現代の因果推論の手法に基づく手法を提案し,各キューの構築とマッチング結果の学習を行い,その信頼性構造を最適化するためのMIO(mixed-integer Optimization)の定式化を提案する。 mio問題は、待ち時間と公平性の制約による政策成果を最大化する。非常に柔軟で、追加の線形ドメイン制約を可能にする。合成データと実世界データを用いて広範な分析を行う。特に,米国ホームレスマネジメント情報システム(HMIS)のデータを用いたフレームワークの評価を行った。 FCFSの方針に準じて待ち時間が低くなり,貧弱なグループや脆弱なグループではホームレスからの退避率(黒人では7%,17歳未満では15%)が向上した。

関連論文リスト

Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback [3.0294344089697596]
本稿では,遅延フィードバック下での資源割り当てを個別化するための,新しい双方向コンテキスト帯域化フレームワークを提案する。本研究は, 制度政策と社会福祉を改善するための遅延認識型意思決定システムの可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-11-13T18:09:08Z)
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文参考訳（メタデータ） (2025-09-25T14:58:29Z)
RIFLES: Resource-effIcient Federated LEarning via Scheduling [4.358456799125694]
Federated Learning(FL)は、分散クライアント間の分散協調モデルトレーニングを可能にする、プライバシ保護機械学習技術である。現在の選択戦略は、過去または現在の相互作用に基づいているという点で、自然界においてミオピックである。 RIFLESは、クライアント選択プロセスをサポートするために、新しい可用性予測層を構築します。
論文参考訳（メタデータ） (2025-05-19T14:26:33Z)
Dynamic Matching with Post-allocation Service and its Application to Refugee Resettlement [1.9689888982532262]
米国の主要難民再定住機関との協力により、我々は、新しい到着(避難ケース)が静的リソースの1つ(固定年限の場所)と即時かつ不可逆的に一致しなければならない動的なマッチング問題を調査した。サービスの時間的特性を考えると、サーバは特定の時点では利用できないため、動的リソースとして参照する。一致すれば、ケースは第一級サービスとして利用できるようになるのを待つことになる。
論文参考訳（メタデータ） (2024-10-30T13:17:38Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Active Learning for Fair and Stable Online Allocations [6.23798328186465]
我々は、オンラインリソース割り当てプロセスの各エポックにおいて、エージェントの特定のサブセットからのフィードバックを検討する。提案アルゴリズムは,様々な測度に対して,時系列のサブ線形な後悔境界を提供する。我々は,効率的な意思決定には広範なフィードバックは必要とせず,様々な問題クラスに対して効率的な結果をもたらすことを示した。
論文参考訳（メタデータ） (2024-06-20T23:23:23Z)
A Resource-Adaptive Approach for Federated Learning under Resource-Constrained Environments [22.038826059430242]
本稿では,不均一な制約リソースを持つ複数のクライアントを対象とする,基礎的連合学習(FL)問題について検討する。資源適応型非同期フェデレーション学習アルゴリズムであるFed-RAAを提案する。
論文参考訳（メタデータ） (2024-06-19T08:55:40Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Learning Optimal and Fair Policies for Online Allocation of Scarce Societal Resources from Data Collected in Deployment [5.0904557821667]
当社は、予算制約を満たしつつ、期待される成果を最大化するオンラインポリシーを設計するために、デプロイメントで収集された管理データを使用します。当社の政策は,ホームレスからの退去率を1.9%向上させ,人種ごとの配分や結果に公平な政策は,フェアネスの非常に低い価格で得られることを示す。
論文参考訳（メタデータ） (2023-11-23T01:40:41Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)
Local Learning Matters: Rethinking Data Heterogeneity in Federated Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文参考訳（メタデータ） (2021-11-28T19:03:39Z)
Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文参考訳（メタデータ） (2021-07-19T02:55:48Z)
MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文参考訳（メタデータ） (2021-02-23T01:30:55Z)
Online Learning Demands in Max-min Fairness [91.37280766977923]
本稿では,複数のユーザ間の希少リソースの割り当て機構について,効率的で公平で戦略に準拠した方法で記述する。このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される可能性がある。各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。
論文参考訳（メタデータ） (2020-12-15T22:15:20Z)
Coordinated Online Learning for Multi-Agent Systems with Coupled Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文参考訳（メタデータ） (2020-10-21T10:11:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。