Fugu-MT 論文翻訳(概要): Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for the Model-free LQR

論文の概要: Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for the Model-free LQR

arxiv url: http://arxiv.org/abs/2401.14534v1
Date: Thu, 25 Jan 2024 21:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 16:24:04.852143
Title: Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for the Model-free LQR
Title（参考訳）: メタラーニング線形二次レギュレータ:モデルフリーLQRに対するポリシーグラディエントMAMLアプローチ
Authors: Leonardo F. Toso, Donglin Zhan, James Anderson, and Han Wang
Abstract要約: 線形二次レギュレータ(LQR)問題に対する政策グラディエントベース(PG)モデル非依存メタラーニング(MAML)アプローチの安定性とパーソナライズ保証を特徴付ける。我々は,MAML-LQRアプローチにより,各タスク固有の最適制御系に近い安定化制御系が生成され,モデルベースとモデルフリーの両方でタスク不均一性バイアスが生じることを示す。
参考スコア（独自算出の注目度）: 4.787550557970832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the problem of learning Linear Quadratic Regulators (LQR) in a multi-task, heterogeneous, and model-free setting. We characterize the stability and personalization guarantees of a Policy Gradient-based (PG) Model-Agnostic Meta-Learning (MAML) (Finn et al., 2017) approach for the LQR problem under different task-heterogeneity settings. We show that the MAML-LQR approach produces a stabilizing controller close to each task-specific optimal controller up to a task-heterogeneity bias for both model-based and model-free settings. Moreover, in the model-based setting, we show that this controller is achieved with a linear convergence rate, which improves upon sub-linear rates presented in existing MAML-LQR work. In contrast to existing MAML-LQR results, our theoretical guarantees demonstrate that the learned controller can efficiently adapt to unseen LQR tasks.
Abstract（参考訳）: 我々は,LQR(Linear Quadratic Regulator)をマルチタスク,ヘテロジニアス,モデルフリーで学習する問題について検討する。我々は,LQR問題に対する政策グラディエントベース(PG)モデル非依存メタラーニング(MAML)アプローチ(Finn et al., 2017)の安定性とパーソナライズ保証を,異なるタスク・ヘテロジニティ設定の下で特徴付ける。 maml-lqrアプローチは,モデルベースとモデルフリーの両方の設定においてタスクヘテロゲニティバイアスまで,各タスク固有の最適コントローラに近い安定化コントローラを生成する。さらに,モデルに基づく設定では,既存のMAML-LQR作業で提示される線形収束率を向上し,線形収束率で制御が達成されることを示す。既存のMAML-LQR結果とは対照的に,学習した制御器が未知のLQRタスクに効率的に適応できることが理論的に保証されている。

関連論文リスト

The Confusing Instance Principle for Online Linear Quadratic Control [6.896797484250302]
モデルに基づく強化学習を用いて、未知のダイナミクスの下で2次コストで線形系を制御するという問題を再考する。我々は,MAB や離散決定過程において,後悔の少ない下位境界を基盤とする Confusing Instance (CI) 原則に基づく代替案を提案する。感度・安定性解析とともにLQRポリシの構造を活用することで,MED-LQを開発した。この新たな制御戦略は,CIとMEDの原則を小規模設定を超えて拡張する。
論文参考訳（メタデータ） (2025-10-22T12:38:42Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
A Moreau Envelope Approach for LQR Meta-Policy Estimation [0.7311194870168775]
離散時間線形時間不変不確実な力学系における線形二次レギュレータ(LQR)のポリシー推定問題について検討する。本稿では,不確実なシステムの有限な実現法から構築した代用LQRコストを提案し,新しい実現法に適応可能なメタポリティクスを効率的に定義する。
論文参考訳（メタデータ） (2024-03-26T04:02:09Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)
Derivative-Free Policy Optimization for Risk-Sensitive and Robust Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文参考訳（メタデータ） (2021-01-04T16:00:46Z)
Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文参考訳（メタデータ） (2020-11-20T09:51:49Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文参考訳（メタデータ） (2020-08-23T16:18:44Z)
Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文参考訳（メタデータ） (2020-07-13T06:03:15Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。