論文の概要: Ubiquitous Distributed Deep Reinforcement Learning at the Edge:
Analyzing Byzantine Agents in Discrete Action Spaces
- arxiv url: http://arxiv.org/abs/2008.07863v1
- Date: Tue, 18 Aug 2020 11:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 22:24:22.867524
- Title: Ubiquitous Distributed Deep Reinforcement Learning at the Edge:
Analyzing Byzantine Agents in Discrete Action Spaces
- Title(参考訳): エッジにおけるユビキタス分散深層強化学習:離散行動空間におけるビザンチンエージェントの解析
- Authors: Wenshuai Zhao, Jorge Pe\~na Queralta, Li Qingqing, Tomi Westerlund
- Abstract要約: 本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。
個別行動の誤りが協調学習活動にどのように影響するかを示す。
分散マルチエージェントトレーニングにおけるアクター・クリティカル(A2C)を活かしたAtariテストベッドを用いたシミュレーション環境で実験を行った。
- 参考スコア(独自算出の注目度): 0.06554326244334865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of edge computing in next-generation mobile networks is
bringing low-latency and high-bandwidth ubiquitous connectivity to a myriad of
cyber-physical systems. This will further boost the increasing intelligence
that is being embedded at the edge in various types of autonomous systems,
where collaborative machine learning has the potential to play a significant
role. This paper discusses some of the challenges in multi-agent distributed
deep reinforcement learning that can occur in the presence of byzantine or
malfunctioning agents. As the simulation-to-reality gap gets bridged, the
probability of malfunctions or errors must be taken into account. We show how
wrong discrete actions can significantly affect the collaborative learning
effort. In particular, we analyze the effect of having a fraction of agents
that might perform the wrong action with a given probability. We study the
ability of the system to converge towards a common working policy through the
collaborative learning process based on the number of experiences from each of
the agents to be aggregated for each policy update, together with the fraction
of wrong actions from agents experiencing malfunctions. Our experiments are
carried out in a simulation environment using the Atari testbed for the
discrete action spaces, and advantage actor-critic (A2C) for the distributed
multi-agent training.
- Abstract(参考訳): 次世代モバイルネットワークにおけるエッジコンピューティングの統合は、無数のサイバー物理システムに低レイテンシと高帯域幅のユビキタス接続をもたらす。
これは、コラボレーション機械学習が重要な役割を果たす可能性を秘めている様々なタイプの自律システムにおいて、エッジに埋め込まれている知性をさらに高めます。
本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。
シミュレーションと現実のギャップが橋渡しされるため、誤動作やエラーの確率を考慮する必要がある。
離散的な行動が協調学習にどのように影響するかを示す。
特に,与えられた確率で間違った行動を行うエージェントのごく一部を持つことの効果を分析した。
本研究は,協調学習プロセスを通じて共通の作業方針に向けて収束するシステムの能力について,各政策更新に集約すべきエージェントからの経験の数と,誤動作を経験するエージェントの誤った行動のごく一部に基づいて検討する。
本実験は,分散アクションスペースのためのatariテストベッドと,分散マルチエージェントトレーニングのためのa2c(actor-critic)を用いたシミュレーション環境で実施する。
関連論文リスト
- Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Scalable Task-Driven Robotic Swarm Control via Collision Avoidance and
Learning Mean-Field Control [23.494528616672024]
我々は、最先端平均場制御技術を用いて、多くのエージェントSwarm制御を分散の古典的な単一エージェント制御に変換する。
そこで我々は,衝突回避と平均場制御の学習を,知的ロボット群動作を牽引的に設計するための統一的な枠組みに統合する。
論文 参考訳(メタデータ) (2022-09-15T16:15:04Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning [0.06554326244334865]
分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
論文 参考訳(メタデータ) (2020-08-18T11:57:33Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。