Fugu-MT 論文翻訳(概要): Robust Model Based Reinforcement Learning Using $\mathcal{L}

論文の概要: Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control

arxiv url: http://arxiv.org/abs/2403.14860v1
Date: Thu, 21 Mar 2024 22:15:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 18:57:02.168192
Title: Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control
Title（参考訳）: $\mathcal{L}_1$適応制御を用いたロバストモデルに基づく強化学習
Authors: Minjun Sung, Sambhu H. Karumanchi, Aditya Gahlawat, Naira Hovakimyan,
Abstract要約: 本稿では,モデルベース強化学習(MBRL)アルゴリズムに対する制御理論の拡張手法を提案する。 MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、それを使って制御入力を設計する。提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。
参考スコア（独自算出の注目度）: 4.88489286130994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce $\mathcal{L}_1$-MBRL, a control-theoretic augmentation scheme for Model-Based Reinforcement Learning (MBRL) algorithms. Unlike model-free approaches, MBRL algorithms learn a model of the transition function using data and use it to design a control input. Our approach generates a series of approximate control-affine models of the learned transition function according to the proposed switching law. Using the approximate model, control input produced by the underlying MBRL is perturbed by the $\mathcal{L}_1$ adaptive control, which is designed to enhance the robustness of the system against uncertainties. Importantly, this approach is agnostic to the choice of MBRL algorithm, enabling the use of the scheme with various MBRL algorithms. MBRL algorithms with $\mathcal{L}_1$ augmentation exhibit enhanced performance and sample efficiency across multiple MuJoCo environments, outperforming the original MBRL algorithms, both with and without system noise.
Abstract（参考訳）: モデルベース強化学習(MBRL)アルゴリズムの制御理論拡張スキームである$\mathcal{L}_1$-MBRLを導入する。モデルフリーアプローチとは異なり、MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、制御入力を設計する。提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。近似モデルを用いて、基礎となるMBRLによって生成された制御入力は、不確実性に対するシステムの堅牢性を高めるために、$\mathcal{L}_1$適応制御によって摂動される。重要なことに、このアプローチはMBRLアルゴリズムの選択に非依存であり、様々なMBRLアルゴリズムによるスキームの使用を可能にする。 $\mathcal{L}_1$ augmentation の MBRL アルゴリズムは、複数の MuJoCo 環境にまたがる性能とサンプル効率を向上し、システムのノイズを伴わずに元の MBRL アルゴリズムより優れていた。

関連論文リスト

Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。 MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T02:31:52Z)
Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文参考訳（メタデータ） (2025-03-24T15:35:16Z)
Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective [11.20804263996665]
オフラインモデルベース強化学習(MBRL)は、事前収集データのみから、適切なパフォーマンスのポリシを学習するための競争フレームワークとして機能する。我々は,オンラインインタラクション予算の少ないオフラインMBRLにおけるモデル選択を強化する,アクティブモデル選択フレームワークBOMSを提案する。 BOMSは、オフライントレーニングデータのわずか1%-2.5%に匹敵する少額のオンラインインタラクションによって、ベースラインメソッドよりも改善されていることを示す。
論文参考訳（メタデータ） (2025-02-17T06:34:58Z)
M3: Mamba-assisted Multi-Circuit Optimization via MBRL with Effective Scheduling [6.496667180036735]
M3は、Mambaアーキテクチャと効果的なスケジューリングを用いた新しいモデルベースRL(MBRL)手法である。既存のRL法に比べて試料効率が大幅に向上する。
論文参考訳（メタデータ） (2024-11-25T00:30:49Z)
Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-15T03:36:43Z)
Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文参考訳（メタデータ） (2024-07-18T17:35:32Z)
Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:00:26Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Oracle Inequalities for Model Selection in Offline Reinforcement Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文参考訳（メタデータ） (2022-11-03T17:32:34Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
An Analysis of Model-Based Reinforcement Learning From Abstracted Observations [24.964038353043918]
オンラインで収集したサンプル(例えば実世界のサンプル)とモデルベース強化学習(MBRL)の結果の依存関係を抽象化することで実現可能であることを示す。我々はこの問題を克服するためにマルティンガレの濃度不等式を使用できることを示す。原型的MBRLアルゴリズムであるR-MAXと抽象化を組み合わせることで、モデルベースの「抽象観測からのRL」に対する最初の性能保証を生成する。
論文参考訳（メタデータ） (2022-08-30T17:19:26Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Robust optimal well control using an adaptive multi-grid reinforcement learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60～70%を削減した。
論文参考訳（メタデータ） (2022-07-07T12:08:57Z)
Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。 SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文参考訳（メタデータ） (2021-12-28T15:51:07Z)
Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy RL [0.0]
強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアルゴリズムを組み合わせている。本稿では,Mb軌道最適化のためのオンライン学習と,Mf-RLの外部政治手法を統合する階層的フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-23T15:16:49Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。