論文の概要: Cooperative Multi-Agent Bandits with Heavy Tails
- arxiv url: http://arxiv.org/abs/2008.06244v1
- Date: Fri, 14 Aug 2020 08:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:01:02.610533
- Title: Cooperative Multi-Agent Bandits with Heavy Tails
- Title(参考訳): 重機を用いた多エージェントバンド
- Authors: Abhimanyu Dubey and Alex Pentland
- Abstract要約: エージェント群が共通のバンドイット問題と相互作用する,協調的マルチエージェント設定におけるヘビーテールバンドイット問題について検討する。
この設定における既存のバンディットのアルゴリズムは、平均化ベースの通信プロトコルから生じる信頼区間を利用する。
我々は,メッセージパッシングプロトコルを用いたロバストな推定を組み込んだ協調帯域の分散マルチエージェントアルゴリズムであるtextscMP-UCB を提案する。
- 参考スコア(独自算出の注目度): 15.609414012418043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the heavy-tailed stochastic bandit problem in the cooperative
multi-agent setting, where a group of agents interact with a common bandit
problem, while communicating on a network with delays. Existing algorithms for
the stochastic bandit in this setting utilize confidence intervals arising from
an averaging-based communication protocol known as~\textit{running consensus},
that does not lend itself to robust estimation for heavy-tailed settings. We
propose \textsc{MP-UCB}, a decentralized multi-agent algorithm for the
cooperative stochastic bandit that incorporates robust estimation with a
message-passing protocol. We prove optimal regret bounds for \textsc{MP-UCB}
for several problem settings, and also demonstrate its superiority to existing
methods. Furthermore, we establish the first lower bounds for the cooperative
bandit problem, in addition to providing efficient algorithms for robust bandit
estimation of location.
- Abstract(参考訳): エージェント群が共通のバンディット問題と相互作用する協調マルチエージェント設定において,遅延のあるネットワーク上で通信しながらヘビーテールの確率バンディット問題を検討した。
この設定における確率的バンドイットの既存のアルゴリズムは、--\textit{running consensus}として知られる平均ベースの通信プロトコルから生じる信頼区間を利用する。
我々は,メッセージパッシングプロトコルにロバスト推定を組み込んだ協調確率バンディットのための分散マルチエージェントアルゴリズムである \textsc{mp-ucb} を提案する。
いくつかの問題設定に対して \textsc{MP-UCB} に対する最適後悔境界を証明し、既存の手法よりも優れていることを示す。
さらに,位置情報のロバストなバンディット推定のための効率的なアルゴリズムを提供するとともに,協調バンディット問題の第一下限を確立する。
関連論文リスト
- Multi-Agent Best Arm Identification in Stochastic Linear Bandits [0.7673339435080443]
固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。
学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。
我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
論文 参考訳(メタデータ) (2024-11-20T20:09:44Z) - QuACK: A Multipurpose Queuing Algorithm for Cooperative $k$-Armed Bandits [5.530212768657544]
我々は、$m$エージェントのネットワークが協調して最適な行動を見つける、協調的な$k$武器の盗賊問題を研究する。
単一エージェントのバンディットアルゴリズムをマルチエージェント設定に拡張できるブラックボックスリダクションを提供する。
論文 参考訳(メタデータ) (2024-10-31T12:20:36Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T06:04:00Z) - On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits [7.23389716633927]
我々は,FTRLアルゴリズムが,下界を一定要素に整合した個々の後悔の上界を有することを示す。
また、エッジ遅延パラメータによるスケーリングに関して、適切な正規化器を持つFTRLアルゴリズムが最適であることを示す。
論文 参考訳(メタデータ) (2022-11-30T16:46:41Z) - Private and Byzantine-Proof Cooperative Decision-Making [15.609414012418043]
協調バンディット問題は、多腕バンディットと同時に相互作用するエージェントのグループを含むマルチエージェント決定問題である。
本稿では、エージェントがアクションシーケンスに関して通信をプライベートにしたい場合と、エージェントがビザンチンになり得る場合の2つの設定の下で、バンドイット問題を調査する。
我々は,(a)微分プライベートかつ(b)プライベートでありながら,最適な後悔を得る高信頼有界アルゴリズムを提供する。
我々の分散アルゴリズムはエージェント間の接続のネットワークに関する情報を必要とせず、大規模な動的システムにスケーラブルにします。
論文 参考訳(メタデータ) (2022-05-27T18:03:54Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Kernel Methods for Cooperative Multi-Agent Contextual Bandits [15.609414012418043]
協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。
エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。
我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
論文 参考訳(メタデータ) (2020-08-14T07:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。