論文の概要: Decentralized Blockchain-based Robust Multi-agent Multi-armed Bandit
- arxiv url: http://arxiv.org/abs/2402.04417v1
- Date: Tue, 6 Feb 2024 21:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:44:07.246668
- Title: Decentralized Blockchain-based Robust Multi-agent Multi-armed Bandit
- Title(参考訳): 分散型ブロックチェーンベースのロバストマルチエージェントマルチアーム付きバンディット
- Authors: Mengfan Xu, Diego Klabjan
- Abstract要約: 我々は、複数のクライアントや参加者が完全に分散化されたブロックチェーン上に分散される、堅牢なマルチエージェントマルチアームバンディット問題について検討する。
正直な参加者のために最適な戦略を設計するためのシステムに、ブロックチェーンの高度なテクニックと、新しいメカニズムを取り入れたのは、私たちが初めてです。
これは、悪意のある参加者がいないマルチエージェントのマルチアームバンディット問題と、純粋なビザンティン攻撃を伴う堅牢なマルチエージェントのマルチアームバンディット問題と一致している。
- 参考スコア(独自算出の注目度): 14.822625665220068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a robust multi-agent multi-armed bandit problem where multiple
clients or participants are distributed on a fully decentralized blockchain,
with the possibility of some being malicious. The rewards of arms are
homogeneous among the clients, following time-invariant stochastic
distributions that are revealed to the participants only when the system is
secure enough. The system's objective is to efficiently ensure the cumulative
rewards gained by the honest participants. To this end and to the best of our
knowledge, we are the first to incorporate advanced techniques from
blockchains, as well as novel mechanisms, into the system to design optimal
strategies for honest participants. This allows various malicious behaviors and
the maintenance of participant privacy. More specifically, we randomly select a
pool of validators who have access to all participants, design a brand-new
consensus mechanism based on digital signatures for these validators, invent a
UCB-based strategy that requires less information from participants through
secure multi-party computation, and design the chain-participant interaction
and an incentive mechanism to encourage participants' participation. Notably,
we are the first to prove the theoretical guarantee of the proposed algorithms
by regret analyses in the context of optimality in blockchains. Unlike existing
work that integrates blockchains with learning problems such as federated
learning which mainly focuses on numerical optimality, we demonstrate that the
regret of honest participants is upper bounded by $log{T}$. This is consistent
with the multi-agent multi-armed bandit problem without malicious participants
and the robust multi-agent multi-armed bandit problem with purely Byzantine
attacks.
- Abstract(参考訳): 我々は、複数のクライアントまたは参加者が完全に分散したブロックチェーン上に分散され、悪意を持つ可能性がある、堅牢なマルチエージェントマルチアームのバンディット問題を調査した。
アームの報酬はクライアント間で均質であり、システムが十分に安全である場合にのみ参加者に明らかにされる時間不変確率分布に従う。
システムの目的は、正直な参加者が得た累積報酬を効率的に確保することである。
この目的と最善の知識のために、私たちは、ブロックチェーンからの高度な技術と新しいメカニズムを、正直な参加者のために最適な戦略を設計するシステムに組み入れました。
これにより、さまざまな悪意ある行動や、参加者のプライバシーの維持が可能になる。
より具体的には、すべての参加者にアクセス可能な検証者のプールをランダムに選択し、これらの検証者のためのデジタル署名に基づく真新しいコンセンサスメカニズムをデザインし、安全なマルチパーティ計算を通じて参加者からの情報を少なくするucbベースの戦略を考案し、連鎖参加型インタラクションと参加者の参加を促すインセンティブメカニズムを設計する。
特に、ブロックチェーンの最適性という文脈で後悔して解析することにより、提案アルゴリズムの理論的保証を最初に証明した。
ブロックチェーンと、主に数値最適性に焦点を当てたフェデレーション学習のような学習問題を統合する既存の作業とは異なり、正直な参加者の後悔は、$log{T}$で上限づけられている。
これは、悪意のある参加者がいないマルチエージェントのマルチアームバンディット問題と、純粋なビザンティン攻撃を伴う堅牢なマルチエージェントのマルチアームバンディット問題と一致している。
関連論文リスト
- Securing Proof of Stake Blockchains: Leveraging Multi-Agent Reinforcement Learning for Detecting and Mitigating Malicious Nodes [0.2982610402087727]
MRL-PoS+は、PoSブロックチェーンのセキュリティを強化するための新しいコンセンサスアルゴリズムである。
MRL-PoS+は,PoSブロックチェーンの攻撃レジリエンスを著しく向上することを示す。
論文 参考訳(メタデータ) (2024-07-30T17:18:03Z) - Proof-of-Collaborative-Learning: A Multi-winner Federated Learning Consensus Algorithm [2.5203968759841158]
協調学習(PoCL, Proof-of-Collaborative-Learning)は,多自由度学習による協調学習によるコンセンサス機構である。
PoCLはブロックチェーンのパワーをリダイレクトして、フェデレートされた学習モデルをトレーニングする。
鉱夫の局所訓練モデルの効率性を確保するための新しい評価機構を提案する。
論文 参考訳(メタデータ) (2024-07-17T21:14:05Z) - Enhancing Trust and Privacy in Distributed Networks: A Comprehensive Survey on Blockchain-based Federated Learning [51.13534069758711]
ブロックチェーンのような分散型アプローチは、複数のエンティティ間でコンセンサスメカニズムを実装することで、魅力的なソリューションを提供する。
フェデレートラーニング(FL)は、参加者がデータのプライバシを保護しながら、協力的にモデルをトレーニングすることを可能にする。
本稿では,ブロックチェーンのセキュリティ機能とFLのプライバシ保護モデルトレーニング機能の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-28T07:08:26Z) - PureLottery: Fair and Bias-Resistant Leader Election with a Novel Single-Elimination Tournament Algorithm [0.0]
リーダ選挙(LE)は分散システムとブロックチェーン技術において重要であり、ひとつの参加者がリーダとして行動することを保証する。
従来のLEメソッドは、しばしば分散乱数生成(RNG)に依存しており、操作の脆弱性、公平性の欠如、検証遅延関数(VDF)や公開検証秘密共有(PVSS)といった複雑な手順の必要性といった問題に直面している。
この学説はランダム化されたLEに対する新しいアプローチを示し、ゲーム理論的な仮定を利用して、参加者がリーダーとして選ばれることを目指して、機会を減少させる行為を自然に避ける。
この観点は、分散化の必要性を排除してLEを単純化する
論文 参考訳(メタデータ) (2024-02-27T12:30:17Z) - Generative AI-enabled Blockchain Networks: Fundamentals, Applications,
and Case Study [73.87110604150315]
Generative Artificial Intelligence(GAI)は、ブロックチェーン技術の課題に対処するための有望なソリューションとして登場した。
本稿では、まずGAI技術を紹介し、そのアプリケーションの概要を説明し、GAIをブロックチェーンに統合するための既存のソリューションについて議論する。
論文 参考訳(メタデータ) (2024-01-28T10:46:17Z) - MRL-PoS: A Multi-agent Reinforcement Learning based Proof of Stake Consensus Algorithm for Blockchain [0.18641315013048293]
本稿では,マルチエージェント強化学習に基づくProof-of-StakeコンセンサスアルゴリズムであるMRL-PoSを紹介する。
悪意のあるノードを排除し、正直なノードにインセンティブを与える、報酬と罰則の仕組みが組み込まれている。
論文 参考訳(メタデータ) (2023-12-14T16:58:18Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Cooperative Multi-Agent Actor-Critic for Privacy-Preserving Load
Scheduling in a Residential Microgrid [71.17179010567123]
本稿では,分散型アクターを分散批評家に教育する,プライバシ保護型マルチエージェントアクター批判フレームワークを提案する。
提案手法は,家庭のプライバシを保護しつつ,暗黙的にマルチエージェントの信用代入メカニズムを学習する。
論文 参考訳(メタデータ) (2021-10-06T14:05:26Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Multi-Stage Decentralized Matching Markets: Uncertain Preferences and
Strategic Behaviors [91.3755431537592]
本稿では、現実世界のマッチング市場で最適な戦略を学ぶためのフレームワークを開発する。
我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。
シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。
論文 参考訳(メタデータ) (2021-02-13T19:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。