論文の概要: Robust Multi-Agent Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2007.03812v3
- Date: Sun, 10 Oct 2021 14:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 19:34:24.384786
- Title: Robust Multi-Agent Multi-Armed Bandits
- Title(参考訳): ロバストなマルチエージェントマルチアーマッドバンド
- Authors: Daniel Vial, Sanjay Shakkottai, R. Srikant
- Abstract要約: 最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
- 参考スコア(独自算出の注目度): 26.26185074977412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that agents facing independent instances of a
stochastic $K$-armed bandit can collaborate to decrease regret. However, these
works assume that each agent always recommends their individual best-arm
estimates to other agents, which is unrealistic in envisioned applications
(machine faults in distributed computing or spam in social recommendation
systems). Hence, we generalize the setting to include $n$ honest and $m$
malicious agents who recommend best-arm estimates and arbitrary arms,
respectively. We first show that even with a single malicious agent, existing
collaboration-based algorithms fail to improve regret guarantees over a
single-agent baseline. We propose a scheme where honest agents learn who is
malicious and dynamically reduce communication with (i.e., "block") them. We
show that collaboration indeed decreases regret for this algorithm, assuming
$m$ is small compared to $K$ but without assumptions on malicious agents'
behavior, thus ensuring that our algorithm is robust against any malicious
recommendation strategy.
- Abstract(参考訳): 近年の研究では、統計的にk$-armed banditの独立した例に直面したエージェントが、後悔を減らすために協力することができることが示されている。
しかしながら、これらの研究は、各エージェントが、想定されたアプリケーション(分散コンピューティングにおけるマシンフォールトやソーシャルレコメンデーションシステムにおけるスパム)において非現実的な他のエージェントに対して、それぞれのベストアーム推定を常に推奨していると仮定している。
したがって、私たちは、それぞれベストアーム推定と任意のアームを推奨する、$n$正直なエージェントと$m$悪意のあるエージェントを含むように設定を一般化する。
まず、単一の悪意のあるエージェントであっても、既存のコラボレーションベースのアルゴリズムは、単一エージェントのベースラインに対する後悔の保証を改善できないことを示す。
正直なエージェントが誰に悪意があるかを学習し、それら(すなわち「ブロック」)とのコミュニケーションを動的に減らす手法を提案する。
このアルゴリズムは、$m$が$K$よりも小さいと仮定するが、悪意のあるエージェントの振る舞いを仮定することなく、我々のアルゴリズムが悪意のある推奨戦略に対して堅牢であることを保証する。
関連論文リスト
- Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions [6.234292942334148]
敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元した場合の,最先端の後悔境界も改善する。
論文 参考訳(メタデータ) (2024-11-12T20:20:26Z) - On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。
我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。
各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Collaborative Linear Bandits with Adversarial Agents: Near-Optimal
Regret Bounds [31.5504566292927]
我々は, 後悔を最小限に抑えるために, 中央サーバを介して協調できる$M$エージェントを含む線形帯域幅問題を考える。
これらのエージェントのわずか$alpha$は敵対的であり、任意に作用し、次の緊張に繋がる。
我々は、厳密な信頼区間を慎重に構築し、探索と探索のトレードオフをバランスさせる新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-06-06T18:16:34Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文 参考訳(メタデータ) (2022-01-23T20:04:15Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z) - The Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits [20.259428328004738]
N$エージェントからなる分散マルチエージェントMulti Armed Bandit (MAB) のセットアップを検討する。
我々のモデルでは、エージェントは任意の連結グラフ上で、ペアワイズなゴシップスタイルの通信を通じてメッセージを交換することで協調する。
論文 参考訳(メタデータ) (2020-01-15T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。