論文の概要: Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for Model-free LQR
- arxiv url: http://arxiv.org/abs/2401.14534v2
- Date: Fri, 31 May 2024 20:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 19:32:36.967250
- Title: Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for Model-free LQR
- Title(参考訳): メタラーニング線形二次レギュレータ:モデルフリーLQRに対するポリシーグラディエントMAMLアプローチ
- Authors: Leonardo F. Toso, Donglin Zhan, James Anderson, Han Wang,
- Abstract要約: LQR問題に対する政策勾配に基づくメタラーニング(MAML)アプローチの安定性とパーソナライズ保証を特徴付ける。
我々の理論的保証は、学習したコントローラが見えないLQRタスクに効率的に適応できることを示しています。
- 参考スコア(独自算出の注目度): 4.787550557970832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of learning linear quadratic regulators (LQR) in a multi-task, heterogeneous, and model-free setting. We characterize the stability and personalization guarantees of a policy gradient-based (PG) model-agnostic meta-learning (MAML) (Finn et al., 2017) approach for the LQR problem under different task-heterogeneity settings. We show that our MAML-LQR algorithm produces a stabilizing controller close to each task-specific optimal controller up to a task-heterogeneity bias in both model-based and model-free learning scenarios. Moreover, in the model-based setting, we show that such a controller is achieved with a linear convergence rate, which improves upon sub-linear rates from existing work. Our theoretical guarantees demonstrate that the learned controller can efficiently adapt to unseen LQR tasks.
- Abstract(参考訳): マルチタスク, 異種, 無モデル設定における線形2次レギュレータ(LQR)の学習問題について検討する。
我々は,LQR問題に対する政策勾配に基づくモデル非依存メタラーニング(MAML)アプローチ(Finn et al , 2017)の安定性とパーソナライズ保証を,異なるタスク・ヘテロジニティ設定下で特徴付ける。
我々のMAML-LQRアルゴリズムは,モデルベースおよびモデルフリーの学習シナリオにおいて,各タスク固有最適制御器に近い安定化制御器を生成する。
さらに、モデルに基づく設定では、そのようなコントローラは線形収束率で達成され、既存の作業からサブ線形速度を改善することを示す。
我々の理論的保証は、学習したコントローラが見えないLQRタスクに効率的に適応できることを示しています。
関連論文リスト
- Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - A Moreau Envelope Approach for LQR Meta-Policy Estimation [0.7311194870168775]
離散時間線形時間不変不確実な力学系における線形二次レギュレータ(LQR)のポリシー推定問題について検討する。
本稿では,不確実なシステムの有限な実現法から構築した代用LQRコストを提案し,新しい実現法に適応可能なメタポリティクスを効率的に定義する。
論文 参考訳(メタデータ) (2024-03-26T04:02:09Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文 参考訳(メタデータ) (2020-07-13T06:03:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。