論文の概要: Convergence of Gradient-based MAML in LQR
- arxiv url: http://arxiv.org/abs/2309.06588v1
- Date: Tue, 12 Sep 2023 20:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 16:10:04.919114
- Title: Convergence of Gradient-based MAML in LQR
- Title(参考訳): LQRにおける勾配型MAMLの収束性
- Authors: Negin Musavi and Geir E. Dullerud
- Abstract要約: 本研究の目的は,システム2次最適 (LQR) に適用した場合のMAML (Modelagnostic Meta-learning) の局所収束特性を検討することである。
この研究は、LQRにおけるMAMLの収束を示すための単純な数値結果も提示する。
- 参考スコア(独自算出の注目度): 1.2328446298523066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main objective of this research paper is to investigate the local
convergence characteristics of Model-agnostic Meta-learning (MAML) when applied
to linear system quadratic optimal control (LQR). MAML and its variations have
become popular techniques for quickly adapting to new tasks by leveraging
previous learning knowledge in areas like regression, classification, and
reinforcement learning. However, its theoretical guarantees remain unknown due
to non-convexity and its structure, making it even more challenging to ensure
stability in the dynamic system setting. This study focuses on exploring MAML
in the LQR setting, providing its local convergence guarantees while
maintaining the stability of the dynamical system. The paper also presents
simple numerical results to demonstrate the convergence properties of MAML in
LQR tasks.
- Abstract(参考訳): 本研究の目的は,線形系2次最適制御(lqr)に適用されるモデル非依存メタラーニング(maml)の局所収束特性を検討することである。
MAMLとそのバリエーションは、回帰、分類、強化学習といった分野における過去の学習知識を活用することで、新しいタスクに迅速に適応するための一般的な技術となっている。
しかし、その理論的保証は非凸性と構造のため未知のままであり、動的システム設定における安定性の確保がさらに困難である。
本研究は, 動的システムの安定性を維持しつつ, 局所収束保証を提供するLQR設定におけるMAMLの探索に焦点を当てた。
また,LQRタスクにおけるMAMLの収束特性を示すため,単純な数値計算結果も提示する。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for Model-free LQR [4.787550557970832]
LQR問題に対する政策勾配に基づくメタラーニング(MAML)アプローチの安定性とパーソナライズ保証を特徴付ける。
我々の理論的保証は、学習したコントローラが見えないLQRタスクに効率的に適応できることを示しています。
論文 参考訳(メタデータ) (2024-01-25T21:59:52Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z) - Performance-Weighed Policy Sampling for Meta-Reinforcement Learning [1.77898701462905]
強化モデル非依存メタラーニング(E-MAML)は、少数のトレーニング例からポリシー関数の高速収束を生成する。
E-MAMLは、以前のタスクの環境で学んだ一連のポリシーパラメータを保持する。
E-MAMLを強化学習(RL)ベースのオンラインフォールトトレラント制御スキームの開発に適用する。
論文 参考訳(メタデータ) (2020-12-10T23:08:38Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z) - Learning to Learn Kernels with Variational Random Features [118.09565227041844]
メタラーニングフレームワークにランダムなフーリエ機能を持つカーネルを導入し、その強力な数ショット学習能力を活用する。
変分推論問題としてメタVRFの最適化を定式化する。
MetaVRFは、既存のメタ学習方法に比べて、はるかに優れた、少なくとも競争力のあるパフォーマンスを提供します。
論文 参考訳(メタデータ) (2020-06-11T18:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。