論文の概要: Decentralized Blockchain-based Robust Multi-agent Multi-armed Bandit
- arxiv url: http://arxiv.org/abs/2402.04417v2
- Date: Thu, 25 Jul 2024 23:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:21:50.267741
- Title: Decentralized Blockchain-based Robust Multi-agent Multi-armed Bandit
- Title(参考訳): 分散型ブロックチェーンベースロバストマルチエージェントマルチアームバンド
- Authors: Mengfan Xu, Diego Klabjan,
- Abstract要約: 我々は、悪意のある参加者の存在、すなわち、複数の参加者が完全に分散化されたブロックチェーン上に分散されるマルチエージェントのマルチエージェントバンディット問題の存在下で、ロバストな研究を行う。
私たちは、ブロックチェーンの高度なテクニックを協力的な意思決定フレームワークに組み込んで、正直な参加者のために最適な戦略を設計しました。
特に、提案アルゴリズムの理論的後悔を初めて証明し、その最適性を主張する。
- 参考スコア(独自算出の注目度): 12.547006167704398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a robust, i.e. in presence of malicious participants, multi-agent multi-armed bandit problem where multiple participants are distributed on a fully decentralized blockchain, with the possibility of some being malicious. The rewards of arms are homogeneous among the honest participants, following time-invariant stochastic distributions, which are revealed to the participants only when certain conditions are met to ensure that the coordination mechanism is secure enough. The coordination mechanism's objective is to efficiently ensure the cumulative rewards gained by the honest participants are maximized. To this end, we are the first to incorporate advanced techniques from blockchains, as well as novel mechanisms, into such a cooperative decision making framework to design optimal strategies for honest participants. This framework allows various malicious behaviors and the maintenance of security and participant privacy. More specifically, we select a pool of validators who communicate to all participants, design a new consensus mechanism based on digital signatures for these validators, invent a UCB-based strategy that requires less information from participants through secure multi-party computation, and design the chain-participant interaction and an incentive mechanism to encourage participants' participation. Notably, we are the first to prove the theoretical regret of the proposed algorithm and claim its optimality. Unlike existing work that integrates blockchains with learning problems such as federated learning which mainly focuses on optimality via computational experiments, we demonstrate that the regret of honest participants is upper bounded by $\log{T}$ under certain assumptions. The regret bound is consistent with the multi-agent multi-armed bandit problem, both without malicious participants and with purely Byzantine attacks which do not affect the entire system.
- Abstract(参考訳): 我々は、悪意のある参加者の存在、すなわち、複数の参加者が完全に分散化されたブロックチェーン上に分散されるマルチエージェントのマルチアームバンディット問題の存在下で、一部の参加者が悪意を持つ可能性がある、というロバストな研究を行っている。
アームの報酬は正直な参加者の間で均質であり、時間不変確率分布に従って、調整機構が十分に安全であることを確実にするために特定の条件が満たされた場合にのみ、参加者に開示される。
調整機構の目的は、正直な参加者が得られる累積報酬が最大化されることを効率的に保証することである。
この目的のために、私たちは、ブロックチェーンの高度な技術と、新しいメカニズムを、誠実な参加者のために最適な戦略を設計するための、このような協調的な意思決定フレームワークに組み入れました。
このフレームワークは、さまざまな悪意ある振る舞いと、セキュリティの維持と、参加者のプライバシを許容する。
より具体的には、すべての参加者とコミュニケーションするバリデータプールを選択し、これらのバリデータに対するデジタル署名に基づく新たなコンセンサスメカニズムを設計し、セキュアなマルチパーティ計算によって参加者からの情報を少なくする UCB ベースの戦略を考案し、参加者の参加を促進するための連鎖参加者インタラクションとインセンティブメカニズムを設計する。
特に、提案アルゴリズムの理論的後悔を初めて証明し、その最適性を主張する。
ブロックチェーンを、主に計算実験による最適性に焦点を当てたフェデレーション学習のような学習問題と統合する既存の作業とは異なり、正直な参加者の後悔は、特定の仮定の下では$\log{T}$で上限づけられている。
後悔の束縛は、悪意のある参加者がいなければ、システム全体に影響を与えない純粋なビザンツ攻撃がなければ、マルチエージェントのマルチ武器の盗賊問題と一致している。
関連論文リスト
- Proof-of-Collaborative-Learning: A Multi-winner Federated Learning Consensus Algorithm [2.5203968759841158]
協調学習(PoCL, Proof-of-Collaborative-Learning)は,多自由度学習による協調学習によるコンセンサス機構である。
PoCLはブロックチェーンのパワーをリダイレクトして、フェデレートされた学習モデルをトレーニングする。
鉱夫の局所訓練モデルの効率性を確保するための新しい評価機構を提案する。
論文 参考訳(メタデータ) (2024-07-17T21:14:05Z) - The Latency Price of Threshold Cryptosystem in Blockchains [52.359230560289745]
本稿では,Byzantine-fault Tolerant(BFT)コンセンサスプロトコルを用いた,しきい値暗号とブロックチェーンのクラス間の相互作用について検討する。
しきい値暗号システムに対する既存のアプローチは、しきい値暗号プロトコルを実行するための少なくとも1つのメッセージ遅延の遅延オーバーヘッドを導入している。
しきい値が狭いブロックチェーンネイティブのしきい値暗号システムに対して,このオーバーヘッドを取り除く機構を提案する。
論文 参考訳(メタデータ) (2024-07-16T20:53:04Z) - Fuzzychain: An Equitable Consensus Mechanism for Blockchain Networks [12.433289572707212]
Fuzzychainは、PoS(Proof of Stake)の欠点に対する解決策として提案されている。
ファイトセマンティクスを定義するためにファジィセットを導入し、分散化された分散処理制御を促進する。
以上の結果から,Fuzzychainは機能的にPoSに適合するだけでなく,バリデータ間の利害関係の公平な分布も確保できることがわかった。
論文 参考訳(メタデータ) (2024-04-20T10:01:40Z) - Enhancing Trust and Privacy in Distributed Networks: A Comprehensive Survey on Blockchain-based Federated Learning [51.13534069758711]
ブロックチェーンのような分散型アプローチは、複数のエンティティ間でコンセンサスメカニズムを実装することで、魅力的なソリューションを提供する。
フェデレートラーニング(FL)は、参加者がデータのプライバシを保護しながら、協力的にモデルをトレーニングすることを可能にする。
本稿では,ブロックチェーンのセキュリティ機能とFLのプライバシ保護モデルトレーニング機能の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-28T07:08:26Z) - PureLottery: Fair and Bias-Resistant Leader Election with a Novel Single-Elimination Tournament Algorithm [0.0]
リーダ選挙(LE)は分散システムとブロックチェーン技術において重要であり、ひとつの参加者がリーダとして行動することを保証する。
従来のLEメソッドは、しばしば分散乱数生成(RNG)に依存しており、操作の脆弱性、公平性の欠如、検証遅延関数(VDF)や公開検証秘密共有(PVSS)といった複雑な手順の必要性といった問題に直面している。
この学説はランダム化されたLEに対する新しいアプローチを示し、ゲーム理論的な仮定を利用して、参加者がリーダーとして選ばれることを目指して、機会を減少させる行為を自然に避ける。
この観点は、分散化の必要性を排除してLEを単純化する
論文 参考訳(メタデータ) (2024-02-27T12:30:17Z) - Generative AI-enabled Blockchain Networks: Fundamentals, Applications,
and Case Study [73.87110604150315]
Generative Artificial Intelligence(GAI)は、ブロックチェーン技術の課題に対処するための有望なソリューションとして登場した。
本稿では、まずGAI技術を紹介し、そのアプリケーションの概要を説明し、GAIをブロックチェーンに統合するための既存のソリューションについて議論する。
論文 参考訳(メタデータ) (2024-01-28T10:46:17Z) - MRL-PoS: A Multi-agent Reinforcement Learning based Proof of Stake Consensus Algorithm for Blockchain [0.18641315013048293]
本稿では,マルチエージェント強化学習に基づくProof-of-StakeコンセンサスアルゴリズムであるMRL-PoSを紹介する。
悪意のあるノードを排除し、正直なノードにインセンティブを与える、報酬と罰則の仕組みが組み込まれている。
論文 参考訳(メタデータ) (2023-12-14T16:58:18Z) - Defending Against Poisoning Attacks in Federated Learning with
Blockchain [12.840821573271999]
ブロックチェーンと分散台帳技術に基づくセキュアで信頼性の高いフェデレーション学習システムを提案する。
本システムでは,オンチェーン型スマートコントラクトを利用したピアツーピア投票機構と報酬アンドスラッシュ機構を組み込んで,悪意ある行動の検出と検出を行う。
論文 参考訳(メタデータ) (2023-07-02T11:23:33Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Multi-Stage Decentralized Matching Markets: Uncertain Preferences and
Strategic Behaviors [91.3755431537592]
本稿では、現実世界のマッチング市場で最適な戦略を学ぶためのフレームワークを開発する。
我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。
シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。
論文 参考訳(メタデータ) (2021-02-13T19:25:52Z) - Byzantine-resilient Decentralized Stochastic Gradient Descent [85.15773446094576]
分散学習システムのビザンチンレジリエンスに関する詳細な研究について述べる。
ビザンチンフォールトトレランスを用いた分散学習を支援する新しいアルゴリズムUBARを提案する。
論文 参考訳(メタデータ) (2020-02-20T05:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。