論文の概要: The Power of Learned Locally Linear Models for Nonlinear Policy
Optimization
- arxiv url: http://arxiv.org/abs/2305.09619v1
- Date: Tue, 16 May 2023 17:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:52:04.531982
- Title: The Power of Learned Locally Linear Models for Nonlinear Policy
Optimization
- Title(参考訳): 非線形政策最適化のための学習局所線形モデルのパワー
- Authors: Daniel Pfrommer, Max Simchowitz, Tyler Westenbroek, Nikolai Matni,
Stephen Tu
- Abstract要約: 本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。
非線形系力学の局所線形モデルの推定と$mathttiLQR$のようなポリシー更新の繰り返しを行うアルゴリズムを解析する。
- 参考スコア(独自算出の注目度): 26.45568696453259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common pipeline in learning-based control is to iteratively estimate a
model of system dynamics, and apply a trajectory optimization algorithm -
e.g.~$\mathtt{iLQR}$ - on the learned model to minimize a target cost. This
paper conducts a rigorous analysis of a simplified variant of this strategy for
general nonlinear systems. We analyze an algorithm which iterates between
estimating local linear models of nonlinear system dynamics and performing
$\mathtt{iLQR}$-like policy updates. We demonstrate that this algorithm attains
sample complexity polynomial in relevant problem parameters, and, by
synthesizing locally stabilizing gains, overcomes exponential dependence in
problem horizon. Experimental results validate the performance of our
algorithm, and compare to natural deep-learning baselines.
- Abstract(参考訳): 学習に基づく制御における一般的なパイプラインは、システムダイナミクスのモデルを反復的に推定し、軌道最適化アルゴリズムを適用することである。
~$\mathtt{iLQR}$ - 学習モデル上でターゲットコストを最小限に抑える。
本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。
非線形システムダイナミクスの局所線形モデルの推定と$\mathtt{ilqr}$-likeポリシー更新を繰り返すアルゴリズムの解析を行った。
このアルゴリズムが関連する問題パラメータでサンプル複雑性多項式を達成し,局所安定化ゲインを合成することにより,問題地平線の指数依存を克服することを示す。
実験により,本アルゴリズムの性能を検証し,自然学習ベースラインと比較した。
関連論文リスト
- Model-Agnostic Zeroth-Order Policy Optimization for Meta-Learning of Ergodic Linear Quadratic Regulators [13.343937277604892]
エルゴード線形二次規制器における不確実性と不均一性を扱うためにメタラーニングを用いることの問題点について検討する。
本稿では,不均一だが類似の線形力学系を学習するタスクに適用可能なポリシヘシアンの推定を省略するアルゴリズムを提案する。
メタオブジェクトの勾配の有界性と滑らかさを解析することにより、正確な勾配降下過程の収束結果を提供する。
論文 参考訳(メタデータ) (2024-05-27T17:26:36Z) - Neural ODEs as Feedback Policies for Nonlinear Optimal Control [1.8514606155611764]
ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:19:26Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z) - A polynomial-time algorithm for learning nonparametric causal graphs [18.739085486953698]
この分析はモデルフリーであり、線形性、付加性、独立ノイズ、忠実さを前提としない。
我々は、同値な分散を持つ線形模型の以前の研究と密接に関連する残差に条件を課す。
論文 参考訳(メタデータ) (2020-06-22T02:21:53Z) - The role of optimization geometry in single neuron learning [12.891722496444036]
近年,表現型ニューラルネットワークの学習において,最適化アルゴリズムの選択が一般化性能に影響を与えることが実証されている。
幾何学と特徴幾何学の相互作用が、どのようにしてアウト・オブ・サンプレットを導き、性能を向上させるかを示す。
論文 参考訳(メタデータ) (2020-06-15T17:39:44Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Local Policy Optimization for Trajectory-Centric Reinforcement Learning [31.495672846638346]
多くのロボット操作タスクは軌道中心であり、グローバルモデルやポリシーを必要としない。
本稿では、軌道中心モデルに基づく強化学習のための局所ポリシーを生成するために、同時軌道安定化ポリシーと局所安定化ポリシーの最適化手法を提案する。
論文 参考訳(メタデータ) (2020-01-22T15:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。