論文の概要: Multi-Player Multi-Armed Bandits with Finite Shareable Resources Arms:
Learning Algorithms & Applications
- arxiv url: http://arxiv.org/abs/2204.13502v1
- Date: Thu, 28 Apr 2022 13:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 14:22:22.045885
- Title: Multi-Player Multi-Armed Bandits with Finite Shareable Resources Arms:
Learning Algorithms & Applications
- Title(参考訳): 有限共有資源アームを有するマルチプレイヤーマルチアームバンディット:学習アルゴリズムと応用
- Authors: Xuchuang Wang, Hong Xie, John C.S. Lui
- Abstract要約: 本研究では,分散化されたプレイヤーが協調して同じマルチアームバンディットをプレイし,総累積報酬を最大化する方法について検討する。
既存のMMABモデルは、複数のプレイヤーが同じ腕を引っ張った場合、衝突を起こし、報酬がゼロになるか、衝突が無く、独立した報酬が得られると仮定する。
衝突と非衝突設定の拡張として,共有可能な資源を持つMMABを提案する。
- 参考スコア(独自算出の注目度): 32.313813562222066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-player multi-armed bandits (MMAB) study how decentralized players
cooperatively play the same multi-armed bandit so as to maximize their total
cumulative rewards. Existing MMAB models mostly assume when more than one
player pulls the same arm, they either have a collision and obtain zero
rewards, or have no collision and gain independent rewards, both of which are
usually too restrictive in practical scenarios. In this paper, we propose an
MMAB with shareable resources as an extension to the collision and
non-collision settings. Each shareable arm has finite shareable resources and a
"per-load" reward random variable, both of which are unknown to players. The
reward from a shareable arm is equal to the "per-load" reward multiplied by the
minimum between the number of players pulling the arm and the arm's maximal
shareable resources. We consider two types of feedback: sharing demand
information (SDI) and sharing demand awareness (SDA), each of which provides
different signals of resource sharing. We design the DPE-SDI and SIC-SDA
algorithms to address the shareable arm problem under these two cases of
feedback respectively and prove that both algorithms have logarithmic regrets
that are tight in the number of rounds. We conduct simulations to validate both
algorithms' performance and show their utilities in wireless networking and
edge computing.
- Abstract(参考訳): マルチプレイヤーマルチアーム・バンドイット(MMAB)は、分散化されたプレイヤーが同じマルチアーム・バンドイットを協調して演奏し、累積報酬を最大化する方法を研究する。
既存のmmabモデルは、多くの場合、複数のプレイヤーが同じ腕を引っ張るとき、衝突してゼロの報酬を得るか、衝突することなく独立した報酬を得るかのどちらかを想定している。
本稿では,衝突と非衝突設定の拡張として,共有可能な資源を持つMMABを提案する。
共有可能な各アームは、有限の共有可能なリソースと、プレイヤーに未知の「負荷ごとの報酬」ランダム変数を持つ。
共有可能なアームからの報酬は、アームを引っ張るプレイヤーの数と、アームの最大共有可能なリソースの間の最小で乗じる「ロード毎の報酬」に等しい。
本稿では、需要情報共有(SDI)と需要情報共有(SDA)の2つのタイプのフィードバックについて考察する。
dpe-sdiアルゴリズムとsic-sdaアルゴリズムをそれぞれ2つのフィードバックのケースで共有可能なアーム問題に対処するように設計し,両アルゴリズムがラウンド数に密着した対数的後悔を持っていることを証明した。
我々は,アルゴリズムの性能を検証し,無線ネットワークとエッジコンピューティングにおける有用性を示すシミュレーションを行う。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Competing for Shareable Arms in Multi-Player Multi-Armed Bandits [29.08799537067425]
本稿では,プレイヤーが自尊心を持ち,自己報酬を最大化することを目的とした,新しいマルチプレイヤーマルチアームバンディット(MPMAB)について検討する。
本稿では, 平均アロケーション (SMAA) を用いた新たな自己中心型MPMABを提案する。
我々は,一人の利己的なプレイヤーが,逸脱によって報酬を著しく増加させることはできず,また,他のプレイヤーの報酬に有害な影響も与えないことを確認した。
論文 参考訳(メタデータ) (2023-05-30T15:59:56Z) - Decentralized Stochastic Multi-Player Multi-Armed Walking Bandits [6.732901486505047]
マルチプレイヤーのマルチアームバンディットは、認知無線システムへの応用を動機とした、ますます関連する意思決定問題である。
本稿では、前述のモデリング問題に対処することを目的とした、テキストマルチプレーヤのマルチアームウォーキングバンディットモデルを提案する。
論文 参考訳(メタデータ) (2022-12-12T23:26:02Z) - Multiple-Play Stochastic Bandits with Shareable Finite-Capacity Arms [32.313813562222066]
マルチプレイマルチアームバンディット(MP-MAB)問題を共有アーム設定で一般化する。
各共有可能なアームは、有限報酬能力と'per-load'の報酬分布を有する。
本稿では,この問題に対処し,その後悔すべき上限を証明するためのオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T13:47:27Z) - An Instance-Dependent Analysis for the Cooperative Multi-Player
Multi-Armed Bandit [93.97385339354318]
マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。
まず, プレイヤーの最適度差を推定するために, 逐次的除去戦略への簡単な修正が可能であることを示す。
第2に,第1の結果を利用して,衝突の小さな報奨をプレイヤー間の協調に役立てる通信プロトコルを設計する。
論文 参考訳(メタデータ) (2021-11-08T23:38:47Z) - Multitask Bandit Learning Through Heterogeneous Feedback Aggregation [35.923544685900055]
我々は,この問題を,一組のプレイヤーが一組のアームと同時に相互作用する,$epsilon$-multi-player multi-armed bandit問題として定式化する。
我々は、異なるプレイヤーが収集した報酬を適応的に集約する高信頼な有界アルゴリズム、RobostAgg$(epsilon)$を開発する。
論文 参考訳(メタデータ) (2020-10-29T07:13:28Z) - Selfish Robustness and Equilibria in Multi-Player Bandits [25.67398941667429]
ゲームでは、複数のプレイヤーが同時に腕を引いて、同じ腕を同時に引っ張る場合、0の報酬で衝突する。
プレイヤーが集団報酬を最大化する協力的ケースは、主に考慮されてきたが、悪意のあるプレイヤーにとっては非常に重要かつ困難な問題である。
代わりに、社会的福祉を犠牲にして、個人の報酬を最大化するインセンティブを持つより自然な利己的なプレイヤーについて検討する。
論文 参考訳(メタデータ) (2020-02-04T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。