論文の概要: Fair Algorithms for Multi-Agent Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2007.06699v2
- Date: Wed, 24 Feb 2021 02:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:24:33.183122
- Title: Fair Algorithms for Multi-Agent Multi-Armed Bandits
- Title(参考訳): マルチエージェント多腕バンディットのフェアアルゴリズム
- Authors: Safwan Hossain, Evi Micha, Nisarg Shah
- Abstract要約: 本稿では,古典的マルチアームバンディット問題のマルチエージェント変種を提案する。
目的は「ベストアーム」を学ばないことであり、実際、各エージェントは別のアームを個人にとって最高のものとみなすことができる。
3つの古典的マルチアームバンディットアルゴリズムのマルチエージェント変種が,サブ線形後悔を実現することを示す。
- 参考スコア(独自算出の注目度): 29.68201160277817
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a multi-agent variant of the classical multi-armed bandit problem,
in which there are $N$ agents and $K$ arms, and pulling an arm generates a
(possibly different) stochastic reward for each agent. Unlike the classical
multi-armed bandit problem, the goal is not to learn the "best arm"; indeed,
each agent may perceive a different arm to be the best for her personally.
Instead, we seek to learn a fair distribution over the arms. Drawing on a long
line of research in economics and computer science, we use the Nash social
welfare as our notion of fairness. We design multi-agent variants of three
classic multi-armed bandit algorithms and show that they achieve sublinear
regret, which is now measured in terms of the lost Nash social welfare.
- Abstract(参考訳): 我々は,n$エージェントとk$アームがあり,アームを引っ張ると各エージェントに対して(おそらく異なる)確率的報酬が生成される,古典的なマルチアーム付きバンディット問題のマルチエージェント変種を提案する。
古典的なマルチアームバンディット問題とは異なり、ゴールは「ベスト・アーム」を学ぶことではなく、実際、各エージェントは彼女にとって最高の腕だと認識することができる。
代わりに、私たちは腕に公平な分布を学ぼうとしています。
経済学とコンピュータ科学の長い研究ラインに基づいて、我々はナッシュ社会福祉を公正の概念として使っている。
我々は3つの古典的マルチアームバンディットアルゴリズムのマルチエージェント変種を設計し、現在、失われたナッシュ社会福祉の観点から測定されているサブ線形後悔を実現することを示す。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。
誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
論文 参考訳(メタデータ) (2024-09-08T12:19:12Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Best Arm Identification in Batched Multi-armed Bandit Problems [3.908867017036043]
近年のマルチアームバンディット問題は、多くの実生活シナリオにおいて、腕をバッチでサンプリングする必要がある。
最適な腕の識別に異なる理論的設定の目的を組み込むことができる一般的な線形プログラミングフレームワークを導入する。
数値実験により,UCB型サンプリング法やトンプソン型サンプリング法と比較して,アルゴリズムの性能も良好であることを示した。
論文 参考訳(メタデータ) (2023-12-21T14:16:38Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Doubly Adversarial Federated Bandits [7.23389716633927]
本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。
我々のアルゴリズムは、Cesa-Bianchi et alで提案されたオープンな質問に対して肯定的な答えを与える。
論文 参考訳(メタデータ) (2023-01-22T22:36:43Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Multi-Armed Bandits with Dependent Arms [18.81667618369821]
我々は,従来のマルチアーマド・バンドイット問題(MABP)の変種について検討し,これを従属アームを持つマルチアーマド・バンドイット(Multi-Armed Bandits)と呼ぶ。
複数のアームをまとめてクラスタを形成し、同じクラスタに属するアームの報酬分布は、クラスタの特徴である未知のパラメータの既知の関数である。
UCBの原理に基づく学習アルゴリズムを開発し、これらの追加の側面観測を適切に活用し、探索・探索トレードオフを行う。
論文 参考訳(メタデータ) (2020-10-13T14:00:19Z) - Generic Outlier Detection in Multi-Armed Bandit [44.11480686973274]
GOLDと呼ばれる新しい引抜きアルゴリズムを提案し、そのような一般的な外装アームを同定する。
合成データセットと実世界のデータセットの両方で行った実験で,提案アルゴリズムは98%の精度を達成した。
論文 参考訳(メタデータ) (2020-07-14T18:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。