論文の概要: Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission
Scheduling
- arxiv url: http://arxiv.org/abs/2211.10827v1
- Date: Sun, 20 Nov 2022 00:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:30:52.547520
- Title: Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission
Scheduling
- Title(参考訳): 最適伝送スケジューリングのための構造強化深部強化学習
- Authors: Jiazheng Chen, Wanchun Liu, Daniel E. Quevedo, Yonghui Li and Branka
Vucetic
- Abstract要約: マルチセンサリモート推定システムの最適スケジューリングのための構造強化型深部強化学習フレームワークを開発した。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
数値計算の結果,提案したDRLアルゴリズムはトレーニング時間を50%削減し,遠隔推定MSEを10%から25%削減できることがわかった。
- 参考スコア(独自算出の注目度): 47.29474858956844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote state estimation of large-scale distributed dynamic processes plays an
important role in Industry 4.0 applications. In this paper, by leveraging the
theoretical results of structural properties of optimal scheduling policies, we
develop a structure-enhanced deep reinforcement learning (DRL) framework for
optimal scheduling of a multi-sensor remote estimation system to achieve the
minimum overall estimation mean-square error (MSE). In particular, we propose a
structure-enhanced action selection method, which tends to select actions that
obey the policy structure. This explores the action space more effectively and
enhances the learning efficiency of DRL agents. Furthermore, we introduce a
structure-enhanced loss function to add penalty to actions that do not follow
the policy structure. The new loss function guides the DRL to converge to the
optimal policy structure quickly. Our numerical results show that the proposed
structure-enhanced DRL algorithms can save the training time by 50% and reduce
the remote estimation MSE by 10% to 25%, when compared to benchmark DRL
algorithms.
- Abstract(参考訳): 大規模分散動的プロセスのリモート状態推定は、業界 4.0 アプリケーションにおいて重要な役割を果たす。
本稿では,最適スケジューリングポリシーの構造特性の理論的結果を利用して,多センサ遠隔推定システムの最適スケジューリングのための構造強化深層強化学習(drl)フレームワークを開発し,推定平均二乗誤差(mse)の最小化を実現する。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
これにより、アクション空間をより効率的に探索し、DRLエージェントの学習効率を高めることができる。
さらに、ポリシー構造に従わない行為にペナルティを加えるための構造強化損失関数を導入する。
新しい損失関数はDRLを最適な政策構造に迅速に収束させる。
計算結果から,提案した構造強化DRLアルゴリズムは,ベンチマークDRLアルゴリズムと比較してトレーニング時間を50%削減し,遠隔推定MSEを10%から25%削減できることがわかった。
関連論文リスト
- Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Structure-Enhanced DRL for Optimal Transmission Scheduling [43.801422320012286]
本稿では,遠隔推定システムの送信スケジューリング問題に焦点をあてる。
システムの最適スケジューリングのための構造強化型深層強化学習フレームワークを開発した。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
論文 参考訳(メタデータ) (2022-12-24T10:18:38Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Progressive extension of reinforcement learning action dimension for
asymmetric assembly tasks [7.4642148614421995]
本稿では,RLアルゴリズムの収束を最適化するために,行動次元の漸進的拡張(PEAD)機構を提案する。
結果は,pead法がrlアルゴリズムのデータ効率と時間効率を向上し,安定した報酬を得ることを示す。
論文 参考訳(メタデータ) (2021-04-06T11:48:54Z) - RL-Controller: a reinforcement learning framework for active structural
control [0.0]
フレキシブルでスケーラブルなシミュレーション環境であるRL-Controllerを導入することで,アクティブコントローラを設計するための新しいRLベースのアプローチを提案する。
提案するフレームワークは,5階建てのベンチマークビルディングに対して,平均65%の削減率で,容易に学習可能であることを示す。
LQG 能動制御法との比較研究において,提案したモデルフリーアルゴリズムはより最適なアクチュエータ強制戦略を学習することを示した。
論文 参考訳(メタデータ) (2021-03-13T04:42:13Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。