論文の概要: Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions
- arxiv url: http://arxiv.org/abs/2411.08167v1
- Date: Tue, 12 Nov 2024 20:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:49.667635
- Title: Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions
- Title(参考訳): 逆転破壊に対するマルチエージェント確率帯域のロバスト
- Authors: Fatemeh Ghaffari, Xuchuang Wang, Jinhang Zuo, Mohammad Hajiesmaili,
- Abstract要約: 敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元した場合の,最先端の後悔境界も改善する。
- 参考スコア(独自算出の注目度): 6.234292942334148
- License:
- Abstract: We study the problem of multi-agent multi-armed bandits with adversarial corruption in a heterogeneous setting, where each agent accesses a subset of arms. The adversary can corrupt the reward observations for all agents. Agents share these corrupted rewards with each other, and the objective is to maximize the cumulative total reward of all agents (and not be misled by the adversary). We propose a multi-agent cooperative learning algorithm that is robust to adversarial corruptions. For this newly devised algorithm, we demonstrate that an adversary with an unknown corruption budget $C$ only incurs an additive $O((L / L_{\min}) C)$ term to the standard regret of the model in non-corruption settings, where $L$ is the total number of agents, and $L_{\min}$ is the minimum number of agents with mutual access to an arm. As a side-product, our algorithm also improves the state-of-the-art regret bounds when reducing to both the single-agent and homogeneous multi-agent scenarios, tightening multiplicative $K$ (the number of arms) and $L$ (the number of agents) factors, respectively.
- Abstract(参考訳): 各エージェントがアームのサブセットにアクセスするヘテロジニアスな環境で,マルチエージェント・マルチアーム・バンディット(Multi-agent multi-armed bandits)の問題について検討した。
敵はすべてのエージェントに対する報酬の観察を台無しにすることができる。
エージェントはこれらの腐敗した報酬を互いに共有し、その目的はすべてのエージェントの累積的な報酬を最大化することである(敵に誤解されることはない)。
敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
新たに考案されたアルゴリズムでは、未知の汚職予算を持つ相手に対して$C$が加法$O((L / L_{\min})Cにのみ引き起こされることを示す。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元し,乗算的$K$(アーム数)と$L$(エージェント数)の要素を締め付けることで,最先端の後悔境界を改善する。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。
我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。
各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Collaborative Multi-agent Stochastic Linear Bandits [28.268809091816287]
我々は,ネットワークを構成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント線形帯域設定について検討する。
すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。
論文 参考訳(メタデータ) (2022-05-12T19:46:35Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文 参考訳(メタデータ) (2022-01-23T20:04:15Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to
Adversarial Corruptions [10.261123419337316]
我々は, 協調型マルチエージェント環境における逆転汚職を伴う盗賊の問題点について検討した。
問題では、報酬は全てのエージェントとラウンドの分布から独立してサンプリングされるが、敵によって破壊される可能性がある。
私たちの目標は、すべてのエージェントに対する全体的な後悔とコミュニケーションのコストを最小化することです。
論文 参考訳(メタデータ) (2021-06-08T09:32:43Z) - Robust Multi-Agent Multi-Armed Bandits [26.26185074977412]
最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
論文 参考訳(メタデータ) (2020-07-07T22:27:30Z) - The Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits [20.259428328004738]
N$エージェントからなる分散マルチエージェントMulti Armed Bandit (MAB) のセットアップを検討する。
我々のモデルでは、エージェントは任意の連結グラフ上で、ペアワイズなゴシップスタイルの通信を通じてメッセージを交換することで協調する。
論文 参考訳(メタデータ) (2020-01-15T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。