論文の概要: Multi-agent Multi-armed Bandits with Minimum Reward Guarantee Fairness
- arxiv url: http://arxiv.org/abs/2502.15240v1
- Date: Fri, 21 Feb 2025 06:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:17.160682
- Title: Multi-agent Multi-armed Bandits with Minimum Reward Guarantee Fairness
- Title(参考訳): 最小リワード保証フェアネスを有するマルチエージェントマルチアームバンド
- Authors: Piyushi Manupriya, Himanshu, SakethaNath Jagarlapudi, Ganesh Ghalme,
- Abstract要約: マルチエージェント・バンディット(MA-MAB)における公平性を確保しつつ,社会福祉を最大化するアルゴリズムを提案する。
提案するアルゴリズムであるRewardFairUCBは、アッパー信頼境界法を利用して、公正性と社会福祉の両面において、サブ線形後悔境界を達成する。
本稿では、RewardFairUCBアルゴリズムが、$tildeO(T1/2)$と$tildeO(T3/4)$のフェアネス後悔上限をインスタンスに依存しない社会福祉後悔保証を実現することを示す。
- 参考スコア(独自算出の注目度): 5.12659586713042
- License:
- Abstract: We investigate the problem of maximizing social welfare while ensuring fairness in a multi-agent multi-armed bandit (MA-MAB) setting. In this problem, a centralized decision-maker takes actions over time, generating random rewards for various agents. Our goal is to maximize the sum of expected cumulative rewards, a.k.a. social welfare, while ensuring that each agent receives an expected reward that is at least a constant fraction of the maximum possible expected reward. Our proposed algorithm, RewardFairUCB, leverages the Upper Confidence Bound (UCB) technique to achieve sublinear regret bounds for both fairness and social welfare. The fairness regret measures the positive difference between the minimum reward guarantee and the expected reward of a given policy, whereas the social welfare regret measures the difference between the social welfare of the optimal fair policy and that of the given policy. We show that RewardFairUCB algorithm achieves instance-independent social welfare regret guarantees of $\tilde{O}(T^{1/2})$ and a fairness regret upper bound of $\tilde{O}(T^{3/4})$. We also give the lower bound of $\Omega(\sqrt{T})$ for both social welfare and fairness regret. We evaluate RewardFairUCB's performance against various baseline and heuristic algorithms using simulated data and real world data, highlighting trade-offs between fairness and social welfare regrets.
- Abstract(参考訳): マルチエージェント・マルチアーム・バンディット(MA-MAB)における社会的福祉の最大化の課題について検討した。
この問題では、集中型意思決定者が時間とともに行動を起こし、さまざまなエージェントに対してランダムな報酬を生成する。
我々の目標は、期待される累積報酬、すなわち社会福祉の総和を最大化し、各エージェントが期待される最大報酬の少なくとも一定の割合の期待報酬を受け取ることにある。
提案するアルゴリズムであるRewardFairUCBは、アッパー信頼境界(UCB)技術を利用して、公正性と社会福祉の両面において、サブ線形後悔境界を達成する。
公正な後悔は、最小報酬保証と所定の政策の期待報酬の正の差を測る一方、社会福祉の後悔は、最適公正政策の社会福祉と与えられた政策の正の差を測る。
本稿では、RewardFairUCBアルゴリズムが、インスタンスに依存しない社会福祉後悔の保証を$\tilde{O}(T^{1/2})$で達成し、公平な後悔の上限を$\tilde{O}(T^{3/4})$で達成していることを示す。
また、社会福祉と公正な後悔の両方に対して、$\Omega(\sqrt{T})の低い上限を与える。
シミュレーションデータと実世界のデータを用いて,RewardFairUCBの様々なベースラインとヒューリスティックなアルゴリズムに対する性能を評価し,公正さと社会福祉の後悔のトレードオフを強調した。
関連論文リスト
- Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Fairness Aware Reinforcement Learning via Proximal Policy Optimization [7.061167083587786]
本稿では,PPOにおける公正性について,人口統計学的公正性,対実的公正性,条件的統計的公正性から導かれるペナルティ項について紹介する。
我々は,資源収集に焦点を当てた協調的かつ競争的なMASであるAlelopathic Harvestゲームにおいて,我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-06T10:45:55Z) - Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - On Penalization in Stochastic Multi-armed Bandits [22.04356596828437]
本稿では,マルチアーム・バンディット(MAB)問題の重要な変種について検討し,ペナルティ化を考慮に入れた。
フェアネス、ほぼ最適の後悔、報酬とフェアネスのトレードオフの改善など、多くのメリットを享受する難解なUPBライクなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T17:13:09Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Socially Fair Reinforcement Learning [12.355178067498073]
報酬関数の異なる複数の利害関係者が存在する場合のエピソード強化学習の問題点を考察する。
私たちのゴールは、異なる報酬関数に関して社会的に公平なポリシーを出力することです。
論文 参考訳(メタデータ) (2022-08-26T11:01:55Z) - Mitigating Disparity while Maximizing Reward: Tight Anytime Guarantee
for Improving Bandits [6.537940428724029]
腕から得られる報酬が、受信したプル数に応じて増加するIMAB問題について検討する。
我々の主な貢献は、最良の累積報酬を達成するIMAB問題に対する任意のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-19T10:23:40Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax
Regret [5.1398743023989555]
我々は、各腕に関連する報酬の分布が時間変動であると仮定する非定常的マルチアーミングバンディット(MAB)問題を研究する。
提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。
論文 参考訳(メタデータ) (2021-01-22T07:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。