論文の概要: Byzantine-Robust Online and Offline Distributed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.00165v1
- Date: Wed, 1 Jun 2022 00:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 16:43:30.618147
- Title: Byzantine-Robust Online and Offline Distributed Reinforcement Learning
- Title(参考訳): Byzantine-Robust Onlineとオフライン分散強化学習
- Authors: Yiding Chen, Xuezhou Zhang, Kaiqing Zhang, Mengdi Wang, Xiaojin Zhu
- Abstract要約: 本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
- 参考スコア(独自算出の注目度): 60.970950468309056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a distributed reinforcement learning setting where multiple
agents separately explore the environment and communicate their experiences
through a central server. However, $\alpha$-fraction of agents are adversarial
and can report arbitrary fake information. Critically, these adversarial agents
can collude and their fake data can be of any sizes. We desire to robustly
identify a near-optimal policy for the underlying Markov decision process in
the presence of these adversarial agents. Our main technical contribution is
Weighted-Clique, a novel algorithm for the robust mean estimation from batches
problem, that can handle arbitrary batch sizes. Building upon this new
estimator, in the offline setting, we design a Byzantine-robust distributed
pessimistic value iteration algorithm; in the online setting, we design a
Byzantine-robust distributed optimistic value iteration algorithm. Both
algorithms obtain near-optimal sample complexities and achieve superior
robustness guarantee than prior works.
- Abstract(参考訳): 我々は,複数のエージェントが個別に環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境を考える。
しかし、エージェントの$\alpha$-fractionは敵対的であり、任意の偽情報を報告できる。
批判的に言えば、これらの敵対的エージェントは衝突しうるし、偽データはどんな大きさでもできる。
我々は,これらの敵エージェントの存在下でのマルコフ決定過程の最適に近い方針を強固に特定したい。
我々の主な技術的貢献はWeighted-Cliqueであり、これは任意のバッチサイズを扱うことができるバッチ問題から堅牢な平均推定のための新しいアルゴリズムである。
この新たな推定器をオフライン環境で構築し、Byzantine-robust分散悲観的値反復アルゴリズムを設計し、オンライン環境ではByzantine-robust分散楽観的値反復アルゴリズムを設計する。
どちらのアルゴリズムも、ほぼ最適サンプルの複雑さを求め、以前の手法よりも優れた堅牢性を保証する。
関連論文リスト
- A Federated Distributionally Robust Support Vector Machine with Mixture of Wasserstein Balls Ambiguity Set for Distributed Fault Diagnosis [3.662364375995991]
本研究では、中央サーバとG$クライアントで構成されるネットワーク上で、データを共有せずに、分散ロバストな(DR)サポートベクタマシン(SVM)をフェデレーション方式でトレーニングする問題について検討する。
グローバルFDR-SVMをトレーニングするための2つの分散最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T19:21:45Z) - Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - Is Offline Decision Making Possible with Only Few Samples? Reliable
Decisions in Data-Starved Bandits via Trust Region Enhancement [25.68354404229254]
データスターブされた設定であっても、最適な設定と競合するポリシーを見つけることが可能であることを示す。
これは、少数のサンプルにのみ依存することで重要な決定をしなければならない設定において、信頼性の高い意思決定への道を開くものだ。
論文 参考訳(メタデータ) (2024-02-24T03:41:09Z) - Scalable Decentralized Algorithms for Online Personalized Mean Estimation [12.002609934938224]
本研究は,各エージェントが実数値分布からサンプルを収集し,その平均値を推定する,オーバーアーキシング問題の簡易版に焦点を当てた。
1つは信念の伝播からインスピレーションを得ており、もう1つはコンセンサスに基づくアプローチを採用している。
論文 参考訳(メタデータ) (2024-02-20T08:30:46Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Byzantine-Robust Decentralized Stochastic Optimization over Static and
Time-Varying Networks [25.15075119957447]
我々は、分散化された静的および時間変化ネットワーク上で定義されたビザンチン-ロバスト最適化問題を考察する。
一部のエージェントは、データの破損、機器の故障、サイバー攻撃のために信頼できない。
ビザンツの攻撃に対処するための重要なアイデアは、ビザンツの無問題に対する全変量(TV)の正規化近似を定式化することです。
提案手法は,ビザンチンフリー最適解の近傍に到達し,ビザンチンエージェントの数とネットワークトポロジーによって地区の大きさが決定されることを示す。
論文 参考訳(メタデータ) (2020-05-12T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。