論文の概要: Learning Event-triggered Control from Data through Joint Optimization
- arxiv url: http://arxiv.org/abs/2008.04712v4
- Date: Fri, 23 Apr 2021 07:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:40:21.167422
- Title: Learning Event-triggered Control from Data through Joint Optimization
- Title(参考訳): 共同最適化によるデータからのイベントトリガー制御の学習
- Authors: Niklas Funk, Dominik Baumann, Vincent Berenz, Sebastian Trimpe
- Abstract要約: イベントトリガー制御戦略のモデルフリー学習のためのフレームワークを提案する。
階層的強化学習に基づく新しいアルゴリズムを提案する。
得られたアルゴリズムは, 資源の節約や非線形・高次元システムへのシームレスなスケールで, 高性能な制御を実現する。
- 参考スコア(独自算出の注目度): 7.391641422048646
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a framework for model-free learning of event-triggered control
strategies. Event-triggered methods aim to achieve high control performance
while only closing the feedback loop when needed. This enables resource
savings, e.g., network bandwidth if control commands are sent via communication
networks, as in networked control systems. Event-triggered controllers consist
of a communication policy, determining when to communicate, and a control
policy, deciding what to communicate. It is essential to jointly optimize the
two policies since individual optimization does not necessarily yield the
overall optimal solution. To address this need for joint optimization, we
propose a novel algorithm based on hierarchical reinforcement learning. The
resulting algorithm is shown to accomplish high-performance control in line
with resource savings and scales seamlessly to nonlinear and high-dimensional
systems. The method's applicability to real-world scenarios is demonstrated
through experiments on a six degrees of freedom real-time controlled
manipulator. Further, we propose an approach towards evaluating the stability
of the learned neural network policies.
- Abstract(参考訳): イベントトリガー制御戦略のモデルフリー学習のためのフレームワークを提案する。
イベントトリガー方式は、必要な時にフィードバックループを閉じるだけで高い制御性能を達成することを目的としている。
これにより、例えばネットワーク制御システムのように、制御コマンドが通信ネットワークを介して送信される場合、ネットワーク帯域幅などのリソース節約が可能になる。
イベントトリガー付きコントローラは、通信ポリシー、通信時期の決定、制御ポリシー、通信方法の決定で構成される。
個々の最適化が必ずしも全体的な最適解をもたらすとは限らないため、共同で2つのポリシーを最適化することが不可欠である。
協調最適化の必要性に対処するため,階層強化学習に基づく新しいアルゴリズムを提案する。
得られたアルゴリズムは, 資源の節約や非線形・高次元システムへのシームレスなスケールで高性能な制御を実現する。
実世界のシナリオへの適用性は、6自由度リアルタイム制御マニピュレータによる実験により実証された。
さらに,学習したニューラルネットワークポリシーの安定性を評価するためのアプローチを提案する。
関連論文リスト
- Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Resource Optimization for Tail-Based Control in Wireless Networked Control Systems [31.144888314890597]
制御安定性の達成は、スケーラブルな無線ネットワーク制御システムにおける重要な設計課題の1つである。
本稿では,従来のLQR(Linear Quadratic Regulator)のコスト関数を拡張し,共有無線ネットワーク上で複数の動的制御システムに拡張する,テールベース制御として定義された代替制御の概念の利用について検討する。
論文 参考訳(メタデータ) (2024-06-20T13:27:44Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control [7.242569453287703]
まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの一般的なアプローチの比較研究を行う。
本結果は,最適性と学習時間の両方の観点から,オフライン教師あり学習の優位性を裏付けるものである。
最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
論文 参考訳(メタデータ) (2022-11-29T05:07:13Z) - Deep Learning for Wireless Networked Systems: a joint
Estimation-Control-Scheduling Approach [47.29474858956844]
ワイヤレスネットワーク制御システム(Wireless Networked Control System, WNCS)は、無線通信を介してセンサ、コントローラ、アクチュエータを接続する技術であり、産業用 4.0 時代において、高度にスケーラブルで低コストな制御システムの展開を可能にする技術である。
WNCSにおける制御と通信の密接な相互作用にもかかわらず、既存のほとんどの研究は分離設計アプローチを採用している。
モデルフリーデータとモデルベースデータの両方を利用する制御と最適化のための,DRLに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T01:29:40Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Deep reinforcement learning of event-triggered communication and control
for multi-agent cooperative transport [9.891241465396098]
協調輸送のためのコミュニケーション・制御戦略の設計問題に対処する多エージェント強化学習手法を検討する。
我々のフレームワークはイベントトリガーアーキテクチャ、すなわち通信入力を演算するフィードバックコントローラと、入力を再更新する必要があるタイミングを決定するトリガー機構を利用する。
論文 参考訳(メタデータ) (2021-03-29T01:16:12Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。