論文の概要: Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control
- arxiv url: http://arxiv.org/abs/2403.14860v1
- Date: Thu, 21 Mar 2024 22:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:57:02.168192
- Title: Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control
- Title(参考訳): $\mathcal{L}_1$適応制御を用いたロバストモデルに基づく強化学習
- Authors: Minjun Sung, Sambhu H. Karumanchi, Aditya Gahlawat, Naira Hovakimyan,
- Abstract要約: 本稿では,モデルベース強化学習(MBRL)アルゴリズムに対する制御理論の拡張手法を提案する。
MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、それを使って制御入力を設計する。
提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。
- 参考スコア(独自算出の注目度): 4.88489286130994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce $\mathcal{L}_1$-MBRL, a control-theoretic augmentation scheme for Model-Based Reinforcement Learning (MBRL) algorithms. Unlike model-free approaches, MBRL algorithms learn a model of the transition function using data and use it to design a control input. Our approach generates a series of approximate control-affine models of the learned transition function according to the proposed switching law. Using the approximate model, control input produced by the underlying MBRL is perturbed by the $\mathcal{L}_1$ adaptive control, which is designed to enhance the robustness of the system against uncertainties. Importantly, this approach is agnostic to the choice of MBRL algorithm, enabling the use of the scheme with various MBRL algorithms. MBRL algorithms with $\mathcal{L}_1$ augmentation exhibit enhanced performance and sample efficiency across multiple MuJoCo environments, outperforming the original MBRL algorithms, both with and without system noise.
- Abstract(参考訳): モデルベース強化学習(MBRL)アルゴリズムの制御理論拡張スキームである$\mathcal{L}_1$-MBRLを導入する。
モデルフリーアプローチとは異なり、MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、制御入力を設計する。
提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。
近似モデルを用いて、基礎となるMBRLによって生成された制御入力は、不確実性に対するシステムの堅牢性を高めるために、$\mathcal{L}_1$適応制御によって摂動される。
重要なことに、このアプローチはMBRLアルゴリズムの選択に非依存であり、様々なMBRLアルゴリズムによるスキームの使用を可能にする。
$\mathcal{L}_1$ augmentation の MBRL アルゴリズムは、複数の MuJoCo 環境にまたがる性能とサンプル効率を向上し、システムのノイズを伴わずに元の MBRL アルゴリズムより優れていた。
関連論文リスト
- M3: Mamba-assisted Multi-Circuit Optimization via MBRL with Effective Scheduling [6.496667180036735]
M3は、Mambaアーキテクチャと効果的なスケジューリングを用いた新しいモデルベースRL(MBRL)手法である。
既存のRL法に比べて試料効率が大幅に向上する。
論文 参考訳(メタデータ) (2024-11-25T00:30:49Z) - Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。
オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。
本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - An Analysis of Model-Based Reinforcement Learning From Abstracted
Observations [24.964038353043918]
オンラインで収集したサンプル(例えば実世界のサンプル)とモデルベース強化学習(MBRL)の結果の依存関係を抽象化することで実現可能であることを示す。
我々はこの問題を克服するためにマルティンガレの濃度不等式を使用できることを示す。
原型的MBRLアルゴリズムであるR-MAXと抽象化を組み合わせることで、モデルベースの「抽象観測からのRL」に対する最初の性能保証を生成する。
論文 参考訳(メタデータ) (2022-08-30T17:19:26Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy
RL [0.0]
強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアルゴリズムを組み合わせている。
本稿では,Mb軌道最適化のためのオンライン学習と,Mf-RLの外部政治手法を統合する階層的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-23T15:16:49Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。