論文の概要: Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to
Adversarial Corruptions
- arxiv url: http://arxiv.org/abs/2106.04207v1
- Date: Tue, 8 Jun 2021 09:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:45:58.793961
- Title: Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to
Adversarial Corruptions
- Title(参考訳): 敵対的腐敗に頑健な協調的確率的マルチエージェントマルチアームドバンディット
- Authors: Junyan Liu, Shuai Li, Dapeng Li
- Abstract要約: 我々は, 協調型マルチエージェント環境における逆転汚職を伴う盗賊の問題点について検討した。
問題では、報酬は全てのエージェントとラウンドの分布から独立してサンプリングされるが、敵によって破壊される可能性がある。
私たちの目標は、すべてのエージェントに対する全体的な後悔とコミュニケーションのコストを最小化することです。
- 参考スコア(独自算出の注目度): 10.261123419337316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of stochastic bandits with adversarial corruptions in
the cooperative multi-agent setting, where $V$ agents interact with a common
$K$-armed bandit problem, and each pair of agents can communicate with each
other to expedite the learning process. In the problem, the rewards are
independently sampled from distributions across all agents and rounds, but they
may be corrupted by an adversary. Our goal is to minimize both the overall
regret and communication cost across all agents. We first show that an additive
term of corruption is unavoidable for any algorithm in this problem. Then, we
propose a new algorithm that is agnostic to the level of corruption. Our
algorithm not only achieves near-optimal regret in the stochastic setting, but
also obtains a regret with an additive term of corruption in the corrupted
setting, while maintaining efficient communication. The algorithm is also
applicable for the single-agent corruption problem, and achieves a high
probability regret that removes the multiplicative dependence of $K$ on
corruption level. Our result of the single-agent case resolves an open question
from Gupta et al. [2019].
- Abstract(参考訳): v$エージェントが共通の$k$-armed bandit問題と対話し、それぞれのエージェントが互いにコミュニケーションして学習プロセスを迅速化することができる、協調マルチエージェント設定における、敵対的腐敗を伴う確率的バンディットの問題について検討する。
問題では、報酬は全てのエージェントとラウンドの分布から独立してサンプリングされるが、敵によって破壊される可能性がある。
私たちの目標は、すべてのエージェント全体の後悔とコミュニケーションのコストを最小限に抑えることです。
まず, この問題のどのアルゴリズムに対しても, 汚職の付加項は避けられないことを示した。
そこで本研究では,汚職のレベルに依存しない新しいアルゴリズムを提案する。
本アルゴリズムは,確率的設定において最適に近い後悔を達成するだけでなく,腐敗した設定における腐敗の用語を付加し,効率的なコミュニケーションを保ちながら後悔を得る。
このアルゴリズムは、単一エージェントの汚職問題にも適用でき、汚職レベルでのK$の乗法的依存を除去する高い確率の後悔を達成する。
単一エージェントケースの結果は、guptaらからの公開質問を解決している。
[2019].
関連論文リスト
- Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions [6.234292942334148]
敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元した場合の,最先端の後悔境界も改善する。
論文 参考訳(メタデータ) (2024-11-12T20:20:26Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - On Optimal Robustness to Adversarial Corruption in Online Decision
Problems [27.68461396741871]
最適ロバスト性は汚損量に対する平方根依存性によって表現できることを示す。
多武装バンディット問題に対しては、対数係数までほぼ狭い下界も提供する。
論文 参考訳(メタデータ) (2021-09-22T18:26:45Z) - Improved Corruption Robust Algorithms for Episodic Reinforcement
Learning [43.279169081740726]
基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。
既存の結果と比較して、総汚職の点で厳密により良い後悔の境界を達成する新しいアルゴリズムを提案します。
その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
論文 参考訳(メタデータ) (2021-02-13T07:04:23Z) - Robust Multi-Agent Multi-Armed Bandits [26.26185074977412]
最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
論文 参考訳(メタデータ) (2020-07-07T22:27:30Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。