論文の概要: Towards Soft Fairness in Restless Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2207.13343v1
- Date: Wed, 27 Jul 2022 07:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:10:16.530328
- Title: Towards Soft Fairness in Restless Multi-Armed Bandits
- Title(参考訳): restless multi-armed banditsにおけるソフトフェアネスを目指して
- Authors: Dexun Li, Pradeep Varakantham
- Abstract要約: Restless Multi-armed bandits (RMAB)は、限られた資源を不確実性の下で割り当てるためのフレームワークである。
個人・地域・コミュニティ間の介入による飢餓を避けるため、まずソフトフェアネス制約を提供する。
次に、RMABのソフトフェアネス制約を強制するアプローチを提案する。
- 参考スコア(独自算出の注目度): 8.140037969280716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restless multi-armed bandits (RMAB) is a framework for allocating limited
resources under uncertainty. It is an extremely useful model for monitoring
beneficiaries and executing timely interventions to ensure maximum benefit in
public health settings (e.g., ensuring patients take medicines in tuberculosis
settings, ensuring pregnant mothers listen to automated calls about good
pregnancy practices). Due to the limited resources, typically certain
communities or regions are starved of interventions that can have follow-on
effects. To avoid starvation in the executed interventions across
individuals/regions/communities, we first provide a soft fairness constraint
and then provide an approach to enforce the soft fairness constraint in RMABs.
The soft fairness constraint requires that an algorithm never probabilistically
favor one arm over another if the long-term cumulative reward of choosing the
latter arm is higher. Our approach incorporates softmax based value iteration
method in the RMAB setting to design selection algorithms that manage to
satisfy the proposed fairness constraint. Our method, referred to as SoftFair,
also provides theoretical performance guarantees and is asymptotically optimal.
Finally, we demonstrate the utility of our approaches on simulated benchmarks
and show that the soft fairness constraint can be handled without a significant
sacrifice on value.
- Abstract(参考訳): Restless Multi-armed bandits (RMAB)は、限られた資源を不確実性の下で割り当てるためのフレームワークである。
これは、受給者のモニタリングや、公衆の健康状態における最大限の利益を確保するためのタイムリーな介入の実行(例えば、患者が結核設定で薬を服用すること、妊娠中の母親が良い妊娠習慣に関する自動呼び出しを聴くこと)に非常に有用なモデルである。
限られた資源のため、通常、特定のコミュニティや地域は、後続効果のある介入に飢えている。
個人/地域/コミュニティ間で実行される介入の飢餓を避けるため、まずソフトフェアネス制約を提供し、次にrmabsのソフトフェアネス制約を強制するアプローチを提供する。
ソフトフェアネス制約は、アルゴリズムが後者のアームを選択するという長期的な累積報酬が高い場合、一方のアームを確率的に好まないことを要求する。
提案手法は、RMAB設定にソフトマックスに基づく値反復法を導入し、提案したフェアネス制約を満たすための選択アルゴリズムを設計する。
我々の手法はSoftFairと呼ばれ、理論的性能保証を提供し、漸近的に最適である。
最後に,シミュレーションベンチマークによるアプローチの有用性を実証し,ソフトフェアネス制約が価値を犠牲にすることなく処理可能であることを示す。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - Indexability is Not Enough for Whittle: Improved, Near-Optimal
Algorithms for Restless Bandits [30.532795983761314]
本研究では,複数の行動を伴うレスレス・マルチアーム・バンディット(RMAB)の計画問題について検討する。
まず、Whittleインデックスポリシーは、シンプルで実用的な設定で失敗する可能性があることを示す。
次に,平均場法に基づく代替計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-31T19:35:15Z) - Efficient Resource Allocation with Fairness Constraints in Restless
Multi-Armed Bandits [8.140037969280716]
Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入における意思決定問題を表現するための適応モデルである。
本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。
論文 参考訳(メタデータ) (2022-06-08T13:28:29Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Planning to Fairly Allocate: Probabilistic Fairness in the Restless
Bandit Setting [30.120134596715154]
ProbFairは、予想される全報酬を最大化し、予算制約を満たす確率的に公正な政策である。
本研究は,CPAP(Continuous positive airway pressure, CPAP)治療への介入を支援する実世界での応用について検討した。
論文 参考訳(メタデータ) (2021-06-14T18:01:08Z) - Collapsing Bandits and Their Application to Public Health Interventions [45.45852113386041]
Collpasing Banditsは、新しいレスレスマルチアーム・バンディット(RMAB)セットで、各アームがバイナリ状態のマルコフ過程に従う。
我々は、RMABのWhittle index技術を用いて、Colapsing Bandits問題がインデックス化可能である条件を導出する。
本アルゴリズムは,最先端のRMAB技術と比較して3次精度の高速化を実現する。
論文 参考訳(メタデータ) (2020-07-05T00:33:30Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。