論文の概要: Learning the Linear Quadratic Regulator from Nonlinear Observations
- arxiv url: http://arxiv.org/abs/2010.03799v1
- Date: Thu, 8 Oct 2020 07:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:58:37.878398
- Title: Learning the Linear Quadratic Regulator from Nonlinear Observations
- Title(参考訳): 非線形観測による線形二次レギュレータの学習
- Authors: Zakaria Mhammedi and Dylan J. Foster and Max Simchowitz and Dipendra
Misra and Wen Sun and Akshay Krishnamurthy and Alexander Rakhlin and John
Langford
- Abstract要約: 我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
- 参考スコア(独自算出の注目度): 135.66883119468707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new problem setting for continuous control called the LQR with
Rich Observations, or RichLQR. In our setting, the environment is summarized by
a low-dimensional continuous latent state with linear dynamics and quadratic
costs, but the agent operates on high-dimensional, nonlinear observations such
as images from a camera. To enable sample-efficient learning, we assume that
the learner has access to a class of decoder functions (e.g., neural networks)
that is flexible enough to capture the mapping from observations to latent
states. We introduce a new algorithm, RichID, which learns a near-optimal
policy for the RichLQR with sample complexity scaling only with the dimension
of the latent state space and the capacity of the decoder function class.
RichID is oracle-efficient and accesses the decoder class only through calls to
a least-squares regression oracle. Our results constitute the first provable
sample complexity guarantee for continuous control with an unknown nonlinearity
in the system model and general function approximation.
- Abstract(参考訳): 我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
この設定では、環境は線形ダイナミクスと二次コストを伴う低次元連続潜在状態によって要約されるが、このエージェントはカメラからのイメージのような高次元の非線形観測を行う。
サンプル効率のよい学習を可能にするために、学習者は観察から潜在状態へのマッピングをキャプチャするのに十分な柔軟性を持つデコーダ関数(ニューラルネットワークなど)のクラスにアクセスできると仮定する。
本稿では, 潜在状態空間の次元とデコーダ関数クラスのキャパシティのみを用いて, サンプル複雑性をスケーリングすることで, richlqr の近似最適ポリシーを学習する新しいアルゴリズム richid を提案する。
RichIDはオラクル効率が高く、最小二乗回帰オラクルへの呼び出しを通してのみデコーダクラスにアクセスする。
この結果は,システムモデルにおける未知非線形性と一般関数近似を持つ連続制御に対する,最初の証明可能なサンプル複雑性保証を構成する。
関連論文リスト
- How Feature Learning Can Improve Neural Scaling Laws [86.9540615081759]
我々は,カーネル限界を超えたニューラルスケーリング法則の解法モデルを開発する。
モデルのサイズ、トレーニング時間、利用可能なデータの総量によるパフォーマンスのスケールアップ方法を示す。
論文 参考訳(メタデータ) (2024-09-26T14:05:32Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究
我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。
結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文 参考訳(メタデータ) (2024-05-22T15:39:05Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - The merged-staircase property: a necessary and nearly sufficient condition for SGD learning of sparse functions on two-layer neural networks [19.899987851661354]
我々は,SGD-Lrnability with $O(d)$ sample complexity in a large ambient dimension。
本研究の主な成果は, 階層的特性である「マージ階段特性」を特徴付けるものである。
鍵となるツールは、潜在低次元部分空間上で定義される函数に適用される新しい「次元自由」力学近似である。
論文 参考訳(メタデータ) (2022-02-17T13:43:06Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Neural Active Learning with Performance Guarantees [37.16062387461106]
非パラメトリックなレシエーションにおけるストリーミング環境におけるアクティブラーニングの問題について検討する。
我々は最近提案されたニューラル・タンジェント・カーネル(NTK)近似ツールを用いて、アルゴリズムが操作する特徴空間と学習したモデルを上から計算する適切なニューラル埋め込みを構築する。
論文 参考訳(メタデータ) (2021-06-06T20:44:23Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。