論文の概要: Fairness for Workers Who Pull the Arms: An Index Based Policy for
Allocation of Restless Bandit Tasks
- arxiv url: http://arxiv.org/abs/2303.00799v1
- Date: Wed, 1 Mar 2023 19:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 17:06:25.310050
- Title: Fairness for Workers Who Pull the Arms: An Index Based Policy for
Allocation of Restless Bandit Tasks
- Title(参考訳): 腕を引っ張る労働者の公正性:レスレスバンドタスクの配置のための指標に基づく政策
- Authors: Arpita Biswas, Jackson A. Killian, Paula Rodriguez Diaz, Susobhan
Ghosh, Milind Tambe
- Abstract要約: 異種労働者によるMulti-worker restless bandits(MWRMAB)と呼ばれる新しいRMAB設定について考察する。
目標は、各労働者の予算制約を満たしつつ、期待される報酬を最大化する介入スケジュールを計画することである。
コントリビューションは,(1)不均一なコストと作業者ごとの予算に対応するためにWhittleインデックスのマルチワーカー拡張を提供し,(2)公正性を達成するためのインデックスベースのスケジューリングポリシを開発する。
- 参考スコア(独自算出の注目度): 30.323831598899773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by applications such as machine repair, project monitoring, and
anti-poaching patrol scheduling, we study intervention planning of stochastic
processes under resource constraints. This planning problem has previously been
modeled as restless multi-armed bandits (RMAB), where each arm is an
intervention-dependent Markov Decision Process. However, the existing
literature assumes all intervention resources belong to a single uniform pool,
limiting their applicability to real-world settings where interventions are
carried out by a set of workers, each with their own costs, budgets, and
intervention effects. In this work, we consider a novel RMAB setting, called
multi-worker restless bandits (MWRMAB) with heterogeneous workers. The goal is
to plan an intervention schedule that maximizes the expected reward while
satisfying budget constraints on each worker as well as fairness in terms of
the load assigned to each worker. Our contributions are two-fold: (1) we
provide a multi-worker extension of the Whittle index to tackle heterogeneous
costs and per-worker budget and (2) we develop an index-based scheduling policy
to achieve fairness. Further, we evaluate our method on various cost structures
and show that our method significantly outperforms other baselines in terms of
fairness without sacrificing much in reward accumulated.
- Abstract(参考訳): 機械修理, プロジェクトモニタリング, 対潜パトロールスケジューリングなどの応用に動機づけられ, 資源制約下での確率過程の介入計画について検討した。
この計画問題は、以前は、各アームが介入依存のマルコフ決定プロセスである、レストレス・マルチアーム・バンディット(RMAB)としてモデル化されていた。
しかし、既存の文献では、すべての介入リソースが単一の一様プールに属しており、それぞれのコスト、予算、介入効果のある労働者の集団による介入が行われる実世界環境への適用性が制限されている。
本研究では,異種労働者によるMWRMAB(Multi-worker restless bandits)と呼ばれる新しいRMAB設定について考察する。
目標は、各ワーカーに対する予算制約を満たしつつ、各ワーカーに割り当てられた負荷の公平さを満たしながら、期待される報酬を最大化する介入スケジュールを計画することである。
コントリビューションは,(1)不均一なコストと作業者ごとの予算に対応するためにWhittleインデックスのマルチワーカー拡張を提供し,(2)公正性を達成するためのインデックスベースのスケジューリングポリシを開発する。
さらに, 様々なコスト構造に対する評価を行い, 報酬の蓄積を犠牲にすることなく, 公平性の観点から他の基準を著しく上回っていることを示す。
関連論文リスト
- Survival Multiarmed Bandits with Bootstrapping Methods [0.0]
Survival Multiarmed Bandits (S-MAB) 問題は、エージェントを観察された報酬に関連する予算に制限する拡張である。
本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, そのような双対目標に対処する枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:21:10Z) - Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Auction-Based Scheduling [2.3326951882644553]
オークションベースのスケジューリングは、多目的意思決定問題のためのモジュラーフレームワークである。
それぞれの目的は別々のポリシーを使用して達成され、ポリシーは独立して作成、変更、置換が可能である。
我々は,2つのポリシー,当初割り当てられた予算,入札戦略を合成する分散アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-18T08:38:42Z) - Limited Resource Allocation in a Non-Markovian World: The Case of
Maternal and Child Healthcare [27.812174610119452]
低リソース環境におけるスケジューリング介入の問題点を考察し,順応性やエンゲージメントを高めることを目的とする。
過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功している。
我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。
一般化された非マルコフ的RMAB設定に取り組むために、(i)各参加者の軌跡を時系列としてモデル化し、(ii)時系列予測モデルのパワーを利用して将来の状態を予測し、(iii)時間を提案する。
論文 参考訳(メタデータ) (2023-05-22T02:26:29Z) - Planning Multiple Epidemic Interventions with Reinforcement Learning [7.51289645756884]
最適な計画は、寿命の最小限の損失、病気の重荷、経済的コストによる流行を抑制することである。
最適な計画を見つけることは、現実的な設定における難解な計算問題である。
我々は、最先端のアクター-批評家強化学習アルゴリズムを、全体的なコストを最小化する計画の探索に適用する。
論文 参考訳(メタデータ) (2023-01-30T11:51:24Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。