論文の概要: Planning to Fairly Allocate: Probabilistic Fairness in the Restless
Bandit Setting
- arxiv url: http://arxiv.org/abs/2106.07677v1
- Date: Mon, 14 Jun 2021 18:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:23:02.247534
- Title: Planning to Fairly Allocate: Probabilistic Fairness in the Restless
Bandit Setting
- Title(参考訳): 公平にアロケートする計画:レスレスバンド設定における確率的公正性
- Authors: Christine Herlihy, Aviva Prins, Aravind Srinivasan, and John Dickerson
- Abstract要約: レストと崩壊するバンディットは、アクション依存の遷移確率を持つアームを備えた設定において、制約されたリソース割り当てをモデル化するために一般的に使用される。
ProbFairは、予想される全報酬を最大化し、予算制約を満たす確率的に公正な定常政策である。
本研究は,CPAP(Continuous positive airway pressure, CPAP)治療への介入を支援する実世界での応用について検討した。
- 参考スコア(独自算出の注目度): 10.116375372247767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restless and collapsing bandits are commonly used to model constrained
resource allocation in settings featuring arms with action-dependent transition
probabilities, such as allocating health interventions among patients [Whittle,
1988; Mate et al., 2020]. However, state-of-the-art Whittle-index-based
approaches to this planning problem either do not consider fairness among arms,
or incentivize fairness without guaranteeing it [Mate et al., 2021].
Additionally, their optimality guarantees only apply when arms are indexable
and threshold-optimal. We demonstrate that the incorporation of hard fairness
constraints necessitates the coupling of arms, which undermines the
tractability, and by extension, indexability of the problem. We then introduce
ProbFair, a probabilistically fair stationary policy that maximizes total
expected reward and satisfies the budget constraint, while ensuring a strictly
positive lower bound on the probability of being pulled at each timestep. We
evaluate our algorithm on a real-world application, where interventions support
continuous positive airway pressure (CPAP) therapy adherence among obstructive
sleep apnea (OSA) patients, as well as simulations on a broader class of
synthetic transition matrices.
- Abstract(参考訳): restless と breakpsing bandits は、患者間の健康介入を割り当てる(whittle, 1988; mate et al., 2020)など、アクション依存の移行確率を伴うアームを特徴とする設定において、制約付きリソース割り当てをモデル化するために一般的に使用される。
しかしながら、この計画問題に対する最先端のホイットル・インデックスに基づくアプローチは、武器間の公平性を考慮しないか、フェアネスを保証せずにインセンティブを与えるかのどちらかである [mate et al., 2021]。
さらに、それらの最適性は、アームがインデックス可能かつしきい値最適である場合にのみ適用される。
本研究では,厳密な公平性制約の組み入れが,トラクタビリティを損なうアームの結合,および拡張によって問題の指数性を必要とすることを示す。
次に、確率論的に公正な定常政策であるProbFairを導入する。これは、予想される全報酬を最大化し、予算制約を満たすとともに、各段階において引き出される確率の厳密な低い境界を確保する。
閉塞性睡眠時無呼吸症候群(OSA)患者に対するCPAP(Continuous positive airway pressure)療法の介入と,より広範な合成遷移行列のシミュレーションを実世界の応用で評価した。
関連論文リスト
- Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Proportional Fairness in Obnoxious Facility Location [70.64736616610202]
この問題に対して,距離に基づく比例フェアネスの概念の階層構造を提案する。
決定論的かつランダムなメカニズムを考察し、比例フェアネスの価格に関する厳密な境界を計算する。
モデルの拡張が2つあることを示す。
論文 参考訳(メタデータ) (2023-01-11T07:30:35Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Towards Soft Fairness in Restless Multi-Armed Bandits [8.140037969280716]
Restless Multi-armed bandits (RMAB)は、限られた資源を不確実性の下で割り当てるためのフレームワークである。
個人・地域・コミュニティ間の介入による飢餓を避けるため、まずソフトフェアネス制約を提供する。
次に、RMABのソフトフェアネス制約を強制するアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-27T07:56:32Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Efficient Resource Allocation with Fairness Constraints in Restless
Multi-Armed Bandits [8.140037969280716]
Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入における意思決定問題を表現するための適応モデルである。
本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。
論文 参考訳(メタデータ) (2022-06-08T13:28:29Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。