論文の概要: Adaptive Event-triggered Reinforcement Learning Control for Complex Nonlinear Systems
- arxiv url: http://arxiv.org/abs/2409.19769v1
- Date: Sun, 29 Sep 2024 20:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:05:44.744775
- Title: Adaptive Event-triggered Reinforcement Learning Control for Complex Nonlinear Systems
- Title(参考訳): 複合非線形システムに対する適応型イベントトリガー強化学習制御
- Authors: Umer Siddique, Abhinav Sinha, Yongcan Cao,
- Abstract要約: 連続時間非線形システムに対する適応型イベントトリガー強化学習制御を提案する。
本研究では, 明示的な学習トリガー条件を必要とせずに, トリガー条件の正確かつ効率的な決定が可能であることを示す。
- 参考スコア(独自算出の注目度): 2.08099858257632
- License:
- Abstract: In this paper, we propose an adaptive event-triggered reinforcement learning control for continuous-time nonlinear systems, subject to bounded uncertainties, characterized by complex interactions. Specifically, the proposed method is capable of jointly learning both the control policy and the communication policy, thereby reducing the number of parameters and computational overhead when learning them separately or only one of them. By augmenting the state space with accrued rewards that represent the performance over the entire trajectory, we show that accurate and efficient determination of triggering conditions is possible without the need for explicit learning triggering conditions, thereby leading to an adaptive non-stationary policy. Finally, we provide several numerical examples to demonstrate the effectiveness of the proposed approach.
- Abstract(参考訳): 本稿では,複雑な相互作用を特徴とする境界不確実性を考慮した連続時間非線形システムに対する適応型イベントトリガー型強化学習制御を提案する。
具体的には,制御ポリシと通信ポリシの両方を共同で学習することで,個別に学習する際のパラメータ数や計算オーバーヘッドを削減できる。
軌道全体の性能を表すアキュレートされた報酬で状態空間を拡大することにより、明示的な学習トリガー条件を必要とせずにトリガー条件の正確かつ効率的な決定が可能であることを示し、適応的な非定常ポリシーを導出する。
最後に,提案手法の有効性を示す数値的な例をいくつか提示する。
関連論文リスト
- Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Balancing policy constraint and ensemble size in uncertainty-based
offline reinforcement learning [7.462336024223669]
不確実性を規制するメカニズムとして,政策制約の役割について検討する。
行動クローンをポリシー更新に組み込むことで、より小さなアンサンブルサイズで十分な罰則を実現できることを示す。
このような手法がオンラインの微調整を安定させ、厳格な性能低下を回避しつつ、継続的な政策改善を可能にしていることを示す。
論文 参考訳(メタデータ) (2023-03-26T13:03:11Z) - Learning Stochastic Parametric Differentiable Predictive Control
Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文 参考訳(メタデータ) (2022-03-02T22:46:32Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。