論文の概要: Model-Agnostic Zeroth-Order Policy Optimization for Meta-Learning of Ergodic Linear Quadratic Regulators
- arxiv url: http://arxiv.org/abs/2405.17370v1
- Date: Mon, 27 May 2024 17:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:14:13.240833
- Title: Model-Agnostic Zeroth-Order Policy Optimization for Meta-Learning of Ergodic Linear Quadratic Regulators
- Title(参考訳): エルゴディック線形二次レギュレータのメタラーニングのためのモデル非依存ゼロ階ポリシー最適化
- Authors: Yunian Pan, Quanyan Zhu,
- Abstract要約: エルゴード線形二次規制器における不確実性と不均一性を扱うためにメタラーニングを用いることの問題点について検討する。
本稿では,不均一だが類似の線形力学系を学習するタスクに適用可能なポリシヘシアンの推定を省略するアルゴリズムを提案する。
メタオブジェクトの勾配の有界性と滑らかさを解析することにより、正確な勾配降下過程の収束結果を提供する。
- 参考スコア(独自算出の注目度): 13.343937277604892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-learning has been proposed as a promising machine learning topic in recent years, with important applications to image classification, robotics, computer games, and control systems. In this paper, we study the problem of using meta-learning to deal with uncertainty and heterogeneity in ergodic linear quadratic regulators. We integrate the zeroth-order optimization technique with a typical meta-learning method, proposing an algorithm that omits the estimation of policy Hessian, which applies to tasks of learning a set of heterogeneous but similar linear dynamic systems. The induced meta-objective function inherits important properties of the original cost function when the set of linear dynamic systems are meta-learnable, allowing the algorithm to optimize over a learnable landscape without projection onto the feasible set. We provide a convergence result for the exact gradient descent process by analyzing the boundedness and smoothness of the gradient for the meta-objective, which justify the proposed algorithm with gradient estimation error being small. We also provide a numerical example to corroborate this perspective.
- Abstract(参考訳): 近年、メタラーニングは、画像分類、ロボット工学、コンピュータゲーム、制御システムに重要な応用をもたらす、有望な機械学習トピックとして提案されている。
本稿では,エルゴディック線形二次規制器における不確実性と不均一性を扱うためにメタラーニングを用いることの問題点について検討する。
我々は、ゼロ階最適化手法を典型的なメタラーニング手法と統合し、不均一だが類似の線形力学系の集合を学習するタスクに適用するポリシーヘシアンの推定を省略するアルゴリズムを提案する。
誘導されたメタオブジェクト関数は、線形力学系の集合がメタ学習可能であるときに原コスト関数の重要な特性を継承し、学習可能な風景を学習可能な集合に投影することなく最適化することができる。
本稿では,メタオブジェクトの勾配の有界性と滑らかさを解析して,厳密な勾配降下過程に対する収束結果について述べる。
この視点を裏付ける数値的な例も提示する。
関連論文リスト
- MPC of Uncertain Nonlinear Systems with Meta-Learning for Fast Adaptation of Neural Predictive Models [6.031205224945912]
ニューラル状態空間モデル(NSSM)は、ディープエンコーダネットワークがデータから非線形性を学ぶ非線形系を近似するために用いられる。
これにより非線形系を潜在空間の線形系に変換し、モデル予測制御(MPC)を用いて効果的な制御動作を決定する。
論文 参考訳(メタデータ) (2024-04-18T11:29:43Z) - The Power of Learned Locally Linear Models for Nonlinear Policy
Optimization [26.45568696453259]
本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。
非線形系力学の局所線形モデルの推定と$mathttiLQR$のようなポリシー更新の繰り返しを行うアルゴリズムを解析する。
論文 参考訳(メタデータ) (2023-05-16T17:13:00Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order
Information [37.70729542263343]
本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。
我々の手法は方向とステップサイズを動的に適応させる。
我々の手法は退屈なチューニング率チューニングを必要としない。
論文 参考訳(メタデータ) (2021-09-11T06:39:50Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。