論文の概要: Combining Model-Based and Model-Free Methods for Nonlinear Control: A
Provably Convergent Policy Gradient Approach
- arxiv url: http://arxiv.org/abs/2006.07476v1
- Date: Fri, 12 Jun 2020 21:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 04:52:12.916210
- Title: Combining Model-Based and Model-Free Methods for Nonlinear Control: A
Provably Convergent Policy Gradient Approach
- Title(参考訳): 非線形制御のためのモデルベース法とモデルフリー法を組み合わせる:おそらく収束的政策勾配アプローチ
- Authors: Guannan Qu, Chenkai Yu, Steven Low, Adam Wierman
- Abstract要約: 本研究では,線形モデルを用いてモデルフリーなポリシー手法の温かいスタートを定義する新しい手法を開発する。
このハイブリッドアプローチは,モデルフリーアプローチに関連する収束問題を回避しつつ,モデルベースコントローラよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.648049177775686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free learning-based control methods have seen great success recently.
However, such methods typically suffer from poor sample complexity and limited
convergence guarantees. This is in sharp contrast to classical model-based
control, which has a rich theory but typically requires strong modeling
assumptions. In this paper, we combine the two approaches to achieve the best
of both worlds. We consider a dynamical system with both linear and non-linear
components and develop a novel approach to use the linear model to define a
warm start for a model-free, policy gradient method. We show this hybrid
approach outperforms the model-based controller while avoiding the convergence
issues associated with model-free approaches via both numerical experiments and
theoretical analyses, in which we derive sufficient conditions on the
non-linear component such that our approach is guaranteed to converge to the
(nearly) global optimal controller.
- Abstract(参考訳): モデルフリー学習に基づく制御手法は近年大きな成功を収めている。
しかし、そのような手法は典型的にはサンプルの複雑さと限定的な収束保証に苦しむ。
これは、リッチ理論を持つが典型的には強いモデリング仮定を必要とする古典的なモデルベース制御とは対照的である。
本稿では,両世界のベストを達成するための2つのアプローチを組み合わせる。
線形成分と非線形成分の両方を持つ力学系を考察し、線形モデルを用いてモデルフリーのポリシー勾配法における温かいスタートを定義する新しいアプローチを開発する。
このハイブリッドアプローチは,数値実験と理論解析の両方を通じてモデルフリーアプローチに関連する収束問題を回避しつつ,モデルベースコントローラよりも優れており,この手法が(ほぼ)大域的最適コントローラに収束することを保証できるような非線形成分の十分条件を導出する。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Model-Based Reinforcement Learning via Stochastic Hybrid Models [39.83837705993256]
本稿では非線形モデリングと制御のハイブリッドシステムビューを採用する。
本稿では,データの時間的構造を捉えるシーケンスモデリングパラダイムについて考察する。
これらの時系列モデルは,ローカルフィードバックコントローラの抽出に使用するクローズドループ拡張を自然に認めていることを示す。
論文 参考訳(メタデータ) (2021-11-11T14:05:46Z) - Combining Gaussian processes and polynomial chaos expansions for
stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。
本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。
最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文 参考訳(メタデータ) (2021-03-09T14:25:08Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。