論文の概要: Robust Decentralized Multi-armed Bandits: From Corruption-Resilience to Byzantine-Resilience
- arxiv url: http://arxiv.org/abs/2511.10344v1
- Date: Fri, 14 Nov 2025 01:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.821954
- Title: Robust Decentralized Multi-armed Bandits: From Corruption-Resilience to Byzantine-Resilience
- Title(参考訳): ロバストな分散化された多武装バンド:崩壊抵抗性からビザンチン抵抗性へ
- Authors: Zicheng Hu, Yuchen Wang, Cheng Chen,
- Abstract要約: 分散型協調型マルチエージェント・バンドイット(DeCMA2B)は、複数のエージェントが分散型マルチエージェント・バンドイット設定でどのように協力するかを考察する。
DeCMA2Bを敵の汚職で研究し、敵は限定的な汚職予算を持つ全てのエージェントの報酬観察を損なうことができる。
DeMABARと呼ばれるロバストなアルゴリズムを提案し、各エージェントの個別の後悔が汚職予算に比例する加法的項にのみ悩まされることを保証する。
- 参考スコア(独自算出の注目度): 18.941567777486867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized cooperative multi-agent multi-armed bandits (DeCMA2B) considers how multiple agents collaborate in a decentralized multi-armed bandit setting. Though this problem has been extensively studied in previous work, most existing methods remain susceptible to various adversarial attacks. In this paper, we first study DeCMA2B with adversarial corruption, where an adversary can corrupt reward observations of all agents with a limited corruption budget. We propose a robust algorithm, called DeMABAR, which ensures that each agent's individual regret suffers only an additive term proportional to the corruption budget. Then we consider a more realistic scenario where the adversary can only attack a small number of agents. Our theoretical analysis shows that the DeMABAR algorithm can also almost completely eliminate the influence of adversarial attacks and is inherently robust in the Byzantine setting, where an unknown fraction of the agents can be Byzantine, i.e., may arbitrarily select arms and communicate wrong information. We also conduct numerical experiments to illustrate the robustness and effectiveness of the proposed method.
- Abstract(参考訳): 分散型協調型マルチエージェント・バンドイット(DeCMA2B)は、複数のエージェントが分散型マルチエージェント・バンドイット設定でどのように協力するかを考察する。
この問題は以前の研究で広く研究されてきたが、既存の手法の多くは様々な敵攻撃の影響を受けやすいままである。
本稿では、まず、敵が限定的な汚職予算を持つ全てのエージェントの報酬観察を損なうことができる、敵の汚職を伴うDeCMA2Bについて検討する。
DeMABARと呼ばれるロバストなアルゴリズムを提案し、各エージェントの個別の後悔が汚職予算に比例する加法的項にのみ悩まされることを保証する。
そして、敵が少数のエージェントにしか攻撃できない、より現実的なシナリオを考える。
我々の理論的分析によると、DeMABARアルゴリズムは敵の攻撃の影響をほぼ完全に排除でき、本質的にビザンツの環境では、未知のエージェントのごく一部がビザンツ人になり得る、すなわち、任意に武器を選択し、誤った情報を伝えることができる。
また,提案手法のロバスト性と有効性を示す数値実験を行った。
関連論文リスト
- Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions [6.234292942334148]
敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元した場合の,最先端の後悔境界も改善する。
論文 参考訳(メタデータ) (2024-11-12T20:20:26Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Adversarial Attacks on Cooperative Multi-agent Bandits [41.79235070291252]
本研究は,CMA2Bに対する不均質および不均質な環境下での敵攻撃について検討する。
均質な設定では、各エージェントが特定のターゲットアームを$T-o(T)$倍選択し、$o(T)$攻撃コストを$T$ラウンドで発生させる攻撃戦略を提案する。
不均質な環境では、標的アーム攻撃が線形攻撃コストを必要とすることを証明し、少数の標的エージェントの観測のみを操作しながら、最大数のエージェントに線形後悔を強いる攻撃戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T04:03:19Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [23.34196562182705]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to
Adversarial Corruptions [10.261123419337316]
我々は, 協調型マルチエージェント環境における逆転汚職を伴う盗賊の問題点について検討した。
問題では、報酬は全てのエージェントとラウンドの分布から独立してサンプリングされるが、敵によって破壊される可能性がある。
私たちの目標は、すべてのエージェントに対する全体的な後悔とコミュニケーションのコストを最小化することです。
論文 参考訳(メタデータ) (2021-06-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。