論文の概要: Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT
- arxiv url: http://arxiv.org/abs/2107.00481v1
- Date: Wed, 30 Jun 2021 16:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:28:20.197170
- Title: Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT
- Title(参考訳): エッジ産業用IoTにおける分散強化学習のための適応確率ADMM
- Authors: Wanlu Lei, Yu Ye, Ming Xiao, Mikael Skoglund, Zhu Han
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
- 参考スコア(独自算出の注目度): 106.83952081124195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Edge computing provides a promising paradigm to support the implementation of
Industrial Internet of Things (IIoT) by offloading tasks to nearby edge nodes.
Meanwhile, the increasing network size makes it impractical for centralized
data processing due to limited bandwidth, and consequently a decentralized
learning scheme is preferable. Reinforcement learning (RL) has been widely
investigated and shown to be a promising solution for decision-making and
optimal control processes. For RL in a decentralized setup, edge nodes (agents)
connected through a communication network aim to work collaboratively to find a
policy to optimize the global reward as the sum of local rewards. However,
communication costs, scalability and adaptation in complex environments with
heterogeneous agents may significantly limit the performance of decentralized
RL. Alternating direction method of multipliers (ADMM) has a structure that
allows for decentralized implementation, and has shown faster convergence than
gradient descent based methods. Therefore, we propose an adaptive stochastic
incremental ADMM (asI-ADMM) algorithm and apply the asI-ADMM to decentralized
RL with edge-computing-empowered IIoT networks. We provide convergence
properties for proposed algorithms by designing a Lyapunov function and prove
that the asI-ADMM has $O(\frac{1}{k}) +O(\frac{1}{M})$ convergence rate where
$k$ and $ M$ are the number of iterations and batch samples, respectively.
Then, we test our algorithm with two supervised learning problems. For
performance evaluation, we simulate two applications in decentralized RL
settings with homogeneous and heterogeneous agents. The experiment results show
that our proposed algorithms outperform the state of the art in terms of
communication costs and scalability, and can well adapt to complex IoT
environments.
- Abstract(参考訳): エッジコンピューティングは、タスクを近くのエッジノードにオフロードすることで、産業用IoT(Industrial Internet of Things)の実装をサポートする、有望なパラダイムを提供する。
一方、ネットワークサイズの増加は帯域幅の制限による集中型データ処理では実用的でないため、分散学習方式が好まれる。
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
分散化されたセットアップでは、エッジノード(エージェント)が通信ネットワークを介して接続され、ローカルな報酬の合計としてグローバルな報酬を最適化するポリシーを見つけることを目的としている。
しかし、異種エージェントによる複雑な環境における通信コスト、スケーラビリティ、適応は、分散RLの性能を著しく制限する可能性がある。
乗算器の交互方向法(ADMM)は、分散化実装が可能な構造を持ち、勾配降下法よりも高速な収束を示した。
そこで我々は,Adaptive stochastic incremental ADMM (asI-ADMM) アルゴリズムを提案し,エッジ計算型IIoTネットワークを用いた分散RLにasI-ADMMを適用した。
lyapunov関数を設計し,asi-admmが$o(\frac{1}{k}) +o(\frac{1}{m})$収束率を持つことを示すことにより,提案アルゴリズムの収束特性を提供する。
次に,2つの教師付き学習問題を用いてアルゴリズムをテストする。
性能評価のために,均質および異種エージェントを用いた分散rl設定における2つのアプリケーションをシミュレートした。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境によく適応できることがわかった。
関連論文リスト
- A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - Imitation Learning based Alternative Multi-Agent Proximal Policy
Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance [15.498559530889839]
本稿では,分散学習に基づく代替的マルチエージェント・プロキシ・ポリシー最適化(IA-MAPPO)アルゴリズムを提案する。
擬似学習を利用して生成コントローラを分散化し,通信オーバーヘッドを低減し,スケーラビリティを向上させる。
シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能が示された。
論文 参考訳(メタデータ) (2023-11-06T06:58:16Z) - DIAMOND: Taming Sample and Communication Complexities in Decentralized
Bilevel Optimization [27.317118892531827]
我々は、DIAMOND(運動量と勾配追跡を伴う分散単時間スケール近似)と呼ばれる新しい分散二段階最適化を開発する。
我々はDIAMONDが$mathcalO(epsilon-3/2)$をサンプルと通信の複雑さで楽しむことを示し、$epsilon$-stationaryソリューションを実現する。
論文 参考訳(メタデータ) (2022-12-05T15:58:00Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Communication Efficient Distributed Learning with Censored, Quantized,
and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。
提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。
CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文 参考訳(メタデータ) (2020-09-14T14:18:19Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。