論文の概要: Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML
Approach for the Model-free LQR
- arxiv url: http://arxiv.org/abs/2401.14534v1
- Date: Thu, 25 Jan 2024 21:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:24:04.852143
- Title: Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML
Approach for the Model-free LQR
- Title(参考訳): メタラーニング線形二次レギュレータ:モデルフリーLQRに対するポリシーグラディエントMAMLアプローチ
- Authors: Leonardo F. Toso, Donglin Zhan, James Anderson, and Han Wang
- Abstract要約: 線形二次レギュレータ(LQR)問題に対する政策グラディエントベース(PG)モデル非依存メタラーニング(MAML)アプローチの安定性とパーソナライズ保証を特徴付ける。
我々は,MAML-LQRアプローチにより,各タスク固有の最適制御系に近い安定化制御系が生成され,モデルベースとモデルフリーの両方でタスク不均一性バイアスが生じることを示す。
- 参考スコア(独自算出の注目度): 4.787550557970832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of learning Linear Quadratic Regulators (LQR) in a
multi-task, heterogeneous, and model-free setting. We characterize the
stability and personalization guarantees of a Policy Gradient-based (PG)
Model-Agnostic Meta-Learning (MAML) (Finn et al., 2017) approach for the LQR
problem under different task-heterogeneity settings. We show that the MAML-LQR
approach produces a stabilizing controller close to each task-specific optimal
controller up to a task-heterogeneity bias for both model-based and model-free
settings. Moreover, in the model-based setting, we show that this controller is
achieved with a linear convergence rate, which improves upon sub-linear rates
presented in existing MAML-LQR work. In contrast to existing MAML-LQR results,
our theoretical guarantees demonstrate that the learned controller can
efficiently adapt to unseen LQR tasks.
- Abstract(参考訳): 我々は,LQR(Linear Quadratic Regulator)をマルチタスク,ヘテロジニアス,モデルフリーで学習する問題について検討する。
我々は,LQR問題に対する政策グラディエントベース(PG)モデル非依存メタラーニング(MAML)アプローチ(Finn et al., 2017)の安定性とパーソナライズ保証を,異なるタスク・ヘテロジニティ設定の下で特徴付ける。
maml-lqrアプローチは,モデルベースとモデルフリーの両方の設定においてタスクヘテロゲニティバイアスまで,各タスク固有の最適コントローラに近い安定化コントローラを生成する。
さらに,モデルに基づく設定では,既存のMAML-LQR作業で提示される線形収束率を向上し,線形収束率で制御が達成されることを示す。
既存のMAML-LQR結果とは対照的に,学習した制御器が未知のLQRタスクに効率的に適応できることが理論的に保証されている。
関連論文リスト
- SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Convergence of Gradient-based MAML in LQR [1.2328446298523066]
本研究の目的は,システム2次最適 (LQR) に適用した場合のMAML (Modelagnostic Meta-learning) の局所収束特性を検討することである。
この研究は、LQRにおけるMAMLの収束を示すための単純な数値結果も提示する。
論文 参考訳(メタデータ) (2023-09-12T20:24:37Z) - Meta Learning MDPs with Linear Transition Models [22.508479528847634]
マルコフ決定過程 (MDP) におけるメタラーニングについて, 線形遷移モデルを用いて検討した。
本稿では,UC-Matrix RLアルゴリズムのバージョンであるBUC-MatrixRLを提案する。
BUC-Matrix RLは,タスクを個別に学習するのに比べて,高バイアス低分散タスク分布に対する伝達後悔の大幅な改善を提供する。
論文 参考訳(メタデータ) (2022-01-21T14:57:03Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Performance-Weighed Policy Sampling for Meta-Reinforcement Learning [1.77898701462905]
強化モデル非依存メタラーニング(E-MAML)は、少数のトレーニング例からポリシー関数の高速収束を生成する。
E-MAMLは、以前のタスクの環境で学んだ一連のポリシーパラメータを保持する。
E-MAMLを強化学習(RL)ベースのオンラインフォールトトレラント制御スキームの開発に適用する。
論文 参考訳(メタデータ) (2020-12-10T23:08:38Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文 参考訳(メタデータ) (2020-07-13T06:03:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。