論文の概要: Online Learning for Cooperative Multi-Player Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2109.03818v1
- Date: Tue, 7 Sep 2021 18:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-11 11:47:40.361120
- Title: Online Learning for Cooperative Multi-Player Multi-Armed Bandits
- Title(参考訳): 協調型マルチプレイヤーマルチアーマッドバンドのオンライン学習
- Authors: William Chang, Mehdi Jafarnia-Jahromi, Rahul Jain
- Abstract要約: 複数の協力者によるマルチアームバンディット(MAB)のための分散オンライン学習フレームワークを提案する。
各ラウンドのプレイヤーが獲得した報酬は、すべてのプレイヤーが獲得した行動に依存する。
プレイヤーの行動が観察できない場合の行動情報非対称性と、他のプレイヤーの行動が観測可能であるが、受信された報酬が同一分布のIDである場合の報酬情報非対称性とを考察する。
- 参考スコア(独自算出の注目度): 7.527034429851578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a framework for decentralized online learning for multi-armed
bandits (MAB) with multiple cooperative players. The reward obtained by the
players in each round depends on the actions taken by all the players. It's a
team setting, and the objective is common. Information asymmetry is what makes
the problem interesting and challenging. We consider three types of information
asymmetry: action information asymmetry when the actions of the players can't
be observed but the rewards received are common; reward information asymmetry
when the actions of the other players are observable but rewards received are
IID from the same distribution; and when we have both action and reward
information asymmetry. For the first setting, we propose a UCB-inspired
algorithm that achieves $O(\log T)$ regret whether the rewards are IID or
Markovian. For the second section, we offer an environment such that the
algorithm given for the first setting gives linear regret. For the third
setting, we show that a variation of the `explore then commit' algorithm
achieves almost log regret.
- Abstract(参考訳): 複数の協力者によるマルチアームバンディット(MAB)のための分散オンライン学習フレームワークを提案する。
各ラウンドのプレイヤーが獲得した報酬は、すべてのプレイヤーが獲得した行動に依存する。
チーム設定であり、目的は共通しています。
情報非対称性は、問題を面白くて難しいものにする。
プレイヤーの行動が観察できない場合の行動情報非対称性,他のプレイヤーの行動が観察可能である場合の報酬情報非対称性,受信した報酬が同一分布のIDである場合の報酬情報非対称性,アクション情報と報酬情報の両方が非対称性である。
まず,その報酬がIIDかマルコフ的かに関わらず,$O(\log T)$後悔する UCB-inspired アルゴリズムを提案する。
第2節では,最初の設定で与えられたアルゴリズムが線形後悔を与えるような環境を提供する。
3つ目の設定では、‘explore then commit’アルゴリズムのバリエーションがほとんど対数後悔を実現することを示す。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Optimal Cooperative Multiplayer Learning Bandits with Noisy Rewards and
No Communication [0.0]
我々は,プレイヤーが事前に戦略に合意することのみを許される,協調的なマルチプレイヤーバンディット学習問題を考える。
この問題では、各プレイヤーが同時にアクションを選択する。
我々は,このアルゴリズムが対数的$O(fraclog TDelta_bma)$(gap依存)後悔および$O(sqrtTlog T)$(gap非依存)後悔を達成することを示す。
論文 参考訳(メタデータ) (2023-11-10T17:55:44Z) - Competing for Shareable Arms in Multi-Player Multi-Armed Bandits [29.08799537067425]
本稿では,プレイヤーが自尊心を持ち,自己報酬を最大化することを目的とした,新しいマルチプレイヤーマルチアームバンディット(MPMAB)について検討する。
本稿では, 平均アロケーション (SMAA) を用いた新たな自己中心型MPMABを提案する。
我々は,一人の利己的なプレイヤーが,逸脱によって報酬を著しく増加させることはできず,また,他のプレイヤーの報酬に有害な影響も与えないことを確認した。
論文 参考訳(メタデータ) (2023-05-30T15:59:56Z) - Multi-Player Multi-Armed Bandits with Finite Shareable Resources Arms:
Learning Algorithms & Applications [32.313813562222066]
本研究では,分散化されたプレイヤーが協調して同じマルチアームバンディットをプレイし,総累積報酬を最大化する方法について検討する。
既存のMMABモデルは、複数のプレイヤーが同じ腕を引っ張った場合、衝突を起こし、報酬がゼロになるか、衝突が無く、独立した報酬が得られると仮定する。
衝突と非衝突設定の拡張として,共有可能な資源を持つMMABを提案する。
論文 参考訳(メタデータ) (2022-04-28T13:46:59Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Bandit Learning in Decentralized Matching Markets [82.39061186055775]
私たちは、一方の市場(プレーヤー)が他方の側(腕)の好みについて事前知識を持っていない両面マッチング市場を研究し、経験からその好みを学ぶ必要があります。
このモデルは、標準のマルチアームバンディットフレームワークを競合する分散型マルチプレイヤー設定に拡張します。
アームの選好が共有されるたびにアルゴリズムがインセンティブ互換であることが示されるが、選好が完全に一般的である場合には必ずしもそうではない。
論文 参考訳(メタデータ) (2020-12-14T08:58:07Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Multitask Bandit Learning Through Heterogeneous Feedback Aggregation [35.923544685900055]
我々は,この問題を,一組のプレイヤーが一組のアームと同時に相互作用する,$epsilon$-multi-player multi-armed bandit問題として定式化する。
我々は、異なるプレイヤーが収集した報酬を適応的に集約する高信頼な有界アルゴリズム、RobostAgg$(epsilon)$を開発する。
論文 参考訳(メタデータ) (2020-10-29T07:13:28Z) - Selfish Robustness and Equilibria in Multi-Player Bandits [25.67398941667429]
ゲームでは、複数のプレイヤーが同時に腕を引いて、同じ腕を同時に引っ張る場合、0の報酬で衝突する。
プレイヤーが集団報酬を最大化する協力的ケースは、主に考慮されてきたが、悪意のあるプレイヤーにとっては非常に重要かつ困難な問題である。
代わりに、社会的福祉を犠牲にして、個人の報酬を最大化するインセンティブを持つより自然な利己的なプレイヤーについて検討する。
論文 参考訳(メタデータ) (2020-02-04T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。