論文の概要: Online Restless Multi-Armed Bandits with Long-Term Fairness Constraints
- arxiv url: http://arxiv.org/abs/2312.10303v2
- Date: Fri, 22 Dec 2023 01:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:46:44.447757
- Title: Online Restless Multi-Armed Bandits with Long-Term Fairness Constraints
- Title(参考訳): 長期の公正制約を考慮したオンラインレスマルチアーマーバンド
- Authors: Shufan Wang, Guojun Xiong, Jian Li
- Abstract要約: 我々は「長期公正制約」を持つ新しいRMABモデルを導入する。
オンラインRMAB-F設定では、各腕に関連する基礎となるMDPがDMに未知である。
Fair-UCRLは、報酬の後悔と公正性違反の両面において、確率的サブリニア境界を保証することを証明している。
- 参考スコア(独自算出の注目度): 17.403031677689427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restless multi-armed bandits (RMAB) have been widely used to model sequential
decision making problems with constraints. The decision maker (DM) aims to
maximize the expected total reward over an infinite horizon under an
"instantaneous activation constraint" that at most B arms can be activated at
any decision epoch, where the state of each arm evolves stochastically
according to a Markov decision process (MDP). However, this basic model fails
to provide any fairness guarantee among arms. In this paper, we introduce
RMAB-F, a new RMAB model with "long-term fairness constraints", where the
objective now is to maximize the long term reward while a minimum long-term
activation fraction for each arm must be satisfied. For the online RMAB-F
setting (i.e., the underlying MDPs associated with each arm are unknown to the
DM), we develop a novel reinforcement learning (RL) algorithm named Fair-UCRL.
We prove that Fair-UCRL ensures probabilistic sublinear bounds on both the
reward regret and the fairness violation regret. Compared with off-the-shelf RL
methods, our Fair-UCRL is much more computationally efficient since it contains
a novel exploitation that leverages a low-complexity index policy for making
decisions. Experimental results further demonstrate the effectiveness of our
Fair-UCRL.
- Abstract(参考訳): Restless Multi-armed bandits (RMAB) は、制約のある逐次決定問題をモデル化するために広く用いられている。
意思決定者(dm)は、マルコフ決定過程(mdp)に従って各アームの状態が確率的に進化する任意の決定期において、最大bアームを活性化できる「即時活性化制約」の下で、無限の地平線上で期待される総報酬を最大化することを目指している。
しかし、この基本モデルは武器間の公平性を保証することができない。
本稿では, RMAB-Fモデルについて述べる。RMAB-Fは「長期公正性制約」を持つ新しいRMABモデルであり, 各アームに対する最小の長期活性化率を満たすことを目的としている。
オンラインRMAB-F設定(つまり、各腕に付随するMDPがDMに未知である)に対して、Fair-UCRLという新しい強化学習アルゴリズムを開発する。
Fair-UCRLは、報酬の後悔と公正性違反の両面において、確率的サブリニア境界を保証することを証明している。
既定のrl法と比較して、我々のフェアucrlは、意思決定に低複雑さのインデックスポリシーを利用する新しいエクスプロイトを含んでいるため、計算効率がはるかに高い。
実験の結果,Fair-UCRLの有効性がさらに示された。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Fairness of Exposure in Online Restless Multi-armed Bandits [8.071147275221973]
レストレス・マルチアーム・バンディット(RMAB)は、各アームがマルコフの挙動と遷移を遷移ダイナミクスに従って示すマルチアーム・バンディットを一般化する。
我々は,本アルゴリズムが単一プルの場合,$O(sqrtTln T)$,$T$がエピソードの総数であることを示す。
論文 参考訳(メタデータ) (2024-02-09T11:53:27Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Towards Soft Fairness in Restless Multi-Armed Bandits [8.140037969280716]
Restless Multi-armed bandits (RMAB)は、限られた資源を不確実性の下で割り当てるためのフレームワークである。
個人・地域・コミュニティ間の介入による飢餓を避けるため、まずソフトフェアネス制約を提供する。
次に、RMABのソフトフェアネス制約を強制するアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-27T07:56:32Z) - Efficient Resource Allocation with Fairness Constraints in Restless
Multi-Armed Bandits [8.140037969280716]
Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入における意思決定問題を表現するための適応モデルである。
本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。
論文 参考訳(メタデータ) (2022-06-08T13:28:29Z) - Learning in Restless Bandits under Exogenous Global Markov Process [13.836565669337057]
レスレス・マルチアーム・バンディット(RMAB)問題に対する未知のアームダイナミクスの拡張について検討する。
各グローバル状態の下では、各腕の報酬過程は未知のマルコフの規則に従って進化する。
我々は,後悔を最小限に抑えるために,外因性マルコフ過程(LEMP)に基づく学習法を開発した。
論文 参考訳(メタデータ) (2021-12-17T12:47:30Z) - Achieving the Pareto Frontier of Regret Minimization and Best Arm
Identification in Multi-Armed Bandits [91.8283876874947]
本稿では,BoBW-lil'UCB$(gamma)$アルゴリズムの設計と解析を行う。
i) RMとBAIの両方の目的に対して最適なアルゴリズムを同時に実行できないことを示す。
また、BoBW-lil'UCB$(gamma)$は、時間複雑性と後悔の点で競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-16T17:52:32Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。