論文の概要: Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control
- arxiv url: http://arxiv.org/abs/2403.14860v1
- Date: Thu, 21 Mar 2024 22:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:57:02.168192
- Title: Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control
- Title(参考訳): $\mathcal{L}_1$適応制御を用いたロバストモデルに基づく強化学習
- Authors: Minjun Sung, Sambhu H. Karumanchi, Aditya Gahlawat, Naira Hovakimyan,
- Abstract要約: 本稿では,モデルベース強化学習(MBRL)アルゴリズムに対する制御理論の拡張手法を提案する。
MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、それを使って制御入力を設計する。
提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。
- 参考スコア(独自算出の注目度): 4.88489286130994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce $\mathcal{L}_1$-MBRL, a control-theoretic augmentation scheme for Model-Based Reinforcement Learning (MBRL) algorithms. Unlike model-free approaches, MBRL algorithms learn a model of the transition function using data and use it to design a control input. Our approach generates a series of approximate control-affine models of the learned transition function according to the proposed switching law. Using the approximate model, control input produced by the underlying MBRL is perturbed by the $\mathcal{L}_1$ adaptive control, which is designed to enhance the robustness of the system against uncertainties. Importantly, this approach is agnostic to the choice of MBRL algorithm, enabling the use of the scheme with various MBRL algorithms. MBRL algorithms with $\mathcal{L}_1$ augmentation exhibit enhanced performance and sample efficiency across multiple MuJoCo environments, outperforming the original MBRL algorithms, both with and without system noise.
- Abstract(参考訳): モデルベース強化学習(MBRL)アルゴリズムの制御理論拡張スキームである$\mathcal{L}_1$-MBRLを導入する。
モデルフリーアプローチとは異なり、MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、制御入力を設計する。
提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。
近似モデルを用いて、基礎となるMBRLによって生成された制御入力は、不確実性に対するシステムの堅牢性を高めるために、$\mathcal{L}_1$適応制御によって摂動される。
重要なことに、このアプローチはMBRLアルゴリズムの選択に非依存であり、様々なMBRLアルゴリズムによるスキームの使用を可能にする。
$\mathcal{L}_1$ augmentation の MBRL アルゴリズムは、複数の MuJoCo 環境にまたがる性能とサンプル効率を向上し、システムのノイズを伴わずに元の MBRL アルゴリズムより優れていた。
関連論文リスト
- The primacy bias in Model-based RL [30.812477200123507]
プライマリーバイアスは エージェントの傾向だ 早期データに適合し 新しいデータから学ぶ能力を失う
これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、プライマリーバイアスを大幅に緩和できることが示されている。
本稿では,モデルに基づく強化学習における世界モデルリセットを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:12:20Z) - Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - An Analysis of Model-Based Reinforcement Learning From Abstracted
Observations [24.964038353043918]
オンラインで収集したサンプル(例えば実世界のサンプル)とモデルベース強化学習(MBRL)の結果の依存関係を抽象化することで実現可能であることを示す。
我々はこの問題を克服するためにマルティンガレの濃度不等式を使用できることを示す。
原型的MBRLアルゴリズムであるR-MAXと抽象化を組み合わせることで、モデルベースの「抽象観測からのRL」に対する最初の性能保証を生成する。
論文 参考訳(メタデータ) (2022-08-30T17:19:26Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy
RL [0.0]
強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアルゴリズムを組み合わせている。
本稿では,Mb軌道最適化のためのオンライン学習と,Mf-RLの外部政治手法を統合する階層的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-23T15:16:49Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。