論文の概要: Distributed Bandits with Heterogeneous Agents
- arxiv url: http://arxiv.org/abs/2201.09353v1
- Date: Sun, 23 Jan 2022 20:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 17:11:55.781238
- Title: Distributed Bandits with Heterogeneous Agents
- Title(参考訳): 異種エージェントを用いた分散バンディット
- Authors: Lin Yang, Yu-zhen Janice Chen, Mohammad Hajiesmaili, John CS Lui, Don
Towsley
- Abstract要約: 本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
- 参考スコア(独自算出の注目度): 38.90376765616447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles a multi-agent bandit setting where $M$ agents cooperate
together to solve the same instance of a $K$-armed stochastic bandit problem.
The agents are \textit{heterogeneous}: each agent has limited access to a local
subset of arms and the agents are asynchronous with different gaps between
decision-making rounds. The goal for each agent is to find its optimal local
arm, and agents can cooperate by sharing their observations with others. While
cooperation between agents improves the performance of learning, it comes with
an additional complexity of communication between agents. For this
heterogeneous multi-agent setting, we propose two learning algorithms, \ucbo
and \AAE. We prove that both algorithms achieve order-optimal regret, which is
$O\left(\sum_{i:\tilde{\Delta}_i>0} \log T/\tilde{\Delta}_i\right)$, where
$\tilde{\Delta}_i$ is the minimum suboptimality gap between the reward mean of
arm $i$ and any local optimal arm. In addition, a careful selection of the
valuable information for cooperation, \AAE achieves a low communication
complexity of $O(\log T)$. Last, numerical experiments verify the efficiency of
both algorithms.
- Abstract(参考訳): 本稿では、M$エージェントが協力して、K$腕確率的バンディット問題の同じ事例を解決するマルチエージェント・バンディット・セッティングに取り組む。
エージェントは \textit{heterogeneous} で、各エージェントはローカルなアームサブセットへのアクセスに制限があり、エージェントは意思決定ラウンド間の異なるギャップで非同期である。
各エージェントの目標は、最適なローカルアームを見つけることであり、エージェントは他のエージェントと観察を共有することで協力することができる。
エージェント間の協調は学習のパフォーマンスを向上させるが、エージェント間のコミュニケーションがさらに複雑になる。
この不均質なマルチエージェント設定のために, 2つの学習アルゴリズム, \ucbo と \aae を提案する。
両アルゴリズムがオーダー最適後悔(\sum_{i:\tilde{\Delta}_i>0} \log T/\tilde{\Delta}_i\right)$であることを示す。
さらに、協力のための貴重な情報を慎重に選択することで、$O(\log T)$の低通信複雑性を実現する。
最後に,両アルゴリズムの効率性を検証する数値実験を行った。
関連論文リスト
- Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Cooperative Multi-Agent Reinforcement Learning: Asynchronous
Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。
本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。
我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文 参考訳(メタデータ) (2023-05-10T20:29:29Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - A Simple and Provably Efficient Algorithm for Asynchronous Federated
Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。
すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。
texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文 参考訳(メタデータ) (2022-07-07T06:16:19Z) - Distributed Contextual Linear Bandits with Minimax Optimal Communication
Cost [48.288452411283444]
そこでは,$N$エージェントが協調して,$d$次元の特徴を持つ線形帯域最適化問題を解く。
本稿では,LinUCBアルゴリズムの分散バッチ除去版であるDisBE-LUCBを提案する。
我々は、DisBE-LUCBの通信コストがわずか$tildemathcalO(dN)$であり、その後悔は少なくとも$tildemathcalO(dN)$であることを示す。
論文 参考訳(メタデータ) (2022-05-26T05:56:23Z) - Communication Efficient Parallel Reinforcement Learning [34.77250498401055]
我々は、$m$エージェントが$s$状態と$a$アクションを持つ$m$同一および独立環境と相互作用する問題を考える。
我々はエージェントが不適切なコミュニケーションラウンドで後悔を最小限に抑えるアルゴリズムを見つけることを目的としている。
論文 参考訳(メタデータ) (2021-02-22T02:46:36Z) - Robust Multi-Agent Multi-Armed Bandits [26.26185074977412]
最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
論文 参考訳(メタデータ) (2020-07-07T22:27:30Z) - The Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits [20.259428328004738]
N$エージェントからなる分散マルチエージェントMulti Armed Bandit (MAB) のセットアップを検討する。
我々のモデルでは、エージェントは任意の連結グラフ上で、ペアワイズなゴシップスタイルの通信を通じてメッセージを交換することで協調する。
論文 参考訳(メタデータ) (2020-01-15T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。