論文の概要: Continuous-Time Reinforcement Learning: New Design Algorithms with
Theoretical Insights and Performance Guarantees
- arxiv url: http://arxiv.org/abs/2307.08920v1
- Date: Tue, 18 Jul 2023 01:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:51:01.193017
- Title: Continuous-Time Reinforcement Learning: New Design Algorithms with
Theoretical Insights and Performance Guarantees
- Title(参考訳): 連続時間強化学習:理論的洞察と性能保証を備えた新しい設計アルゴリズム
- Authors: Brent A. Wallace, Jennie Si
- Abstract要約: 本稿では,一組の(分散化された)励起積分強化学習(EIRL)アルゴリズムを紹介する。
我々は不安定な非最小位相超音速車両を制御する重要な応用問題に対して収束と閉ループ安定性を保証する。
- 参考スコア(独自算出の注目度): 4.248962756649803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time nonlinear optimal control problems hold great promise in
real-world applications. After decades of development, reinforcement learning
(RL) has achieved some of the greatest successes as a general nonlinear control
design method. However, a recent comprehensive analysis of state-of-the-art
continuous-time RL (CT-RL) methods, namely, adaptive dynamic programming
(ADP)-based CT-RL algorithms, reveals they face significant design challenges
due to their complexity, numerical conditioning, and dimensional scaling
issues. Despite advanced theoretical results, existing ADP CT-RL synthesis
methods are inadequate in solving even small, academic problems. The goal of
this work is thus to introduce a suite of new CT-RL algorithms for control of
affine nonlinear systems. Our design approach relies on two important factors.
First, our methods are applicable to physical systems that can be partitioned
into smaller subproblems. This constructive consideration results in reduced
dimensionality and greatly improved intuitiveness of design. Second, we
introduce a new excitation framework to improve persistence of excitation (PE)
and numerical conditioning performance via classical input/output insights.
Such a design-centric approach is the first of its kind in the ADP CT-RL
community. In this paper, we progressively introduce a suite of (decentralized)
excitable integral reinforcement learning (EIRL) algorithms. We provide
convergence and closed-loop stability guarantees, and we demonstrate these
guarantees on a significant application problem of controlling an unstable,
nonminimum phase hypersonic vehicle (HSV).
- Abstract(参考訳): 連続時間非線形最適制御問題は実世界の応用において大きな期待を抱いている。
何十年もの開発を経て、強化学習(rl)は一般的な非線形制御設計法として最も成功した。
しかし、最近のCT-RL法、すなわち適応動的プログラミング(ADP)に基づくCT-RLアルゴリズムの包括的解析により、それらの複雑さ、数値条件付け、次元スケーリングの問題により、設計上の重大な課題に直面していることが明らかとなった。
先進的な理論的結果にもかかわらず、既存のADP CT-RL合成法は小さな学術的な問題を解くには不十分である。
この研究の目的は、アフィン非線形系の制御のための新しいCT-RLアルゴリズムを導入することである。
私たちの設計アプローチは2つの重要な要素に依存します。
まず,本手法はより小さなサブプロブレムに分割できる物理系に適用可能である。
この構成的考慮は、次元性を減少させ、設計の直感性を著しく改善する。
第二に, 従来の入出力インサイトを通した励磁の持続性, 数値コンディショニング性能を向上させるための新しい励磁フレームワークを提案する。
このような設計中心のアプローチは、ADP CT-RLコミュニティで最初のものである。
本稿では,(分散)興奮型統合強化学習(eirl)アルゴリズムの一組を紹介する。
我々は収束性および閉ループ安定性の保証を提供し、不安定な非最小位相超音速車両(HSV)を制御する重要な応用問題に対してこれらの保証を示す。
関連論文リスト
- Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning [11.531786269804707]
グラフ上の最適化問題(COP)を解決するためのゲージ変換(GT)手法を提案する。
GTは非常にシンプルで、10行未満のPythonコードで実装でき、ほとんどの強化学習モデルに適用できる。
GTを用いた従来のRLモデルでは,MaxCut問題に対して最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-04-06T15:31:17Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - DDPNOpt: Differential Dynamic Programming Neural Optimizer [29.82841891919951]
トレーニングのための最も広く使われているアルゴリズムは、差分動的プログラミング(DDP)とリンク可能であることを示す。
本稿では,フィードフォワードと畳み込みネットワークをトレーニングするためのDDPOptの新たなクラスを提案する。
論文 参考訳(メタデータ) (2020-02-20T15:42:15Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。