論文の概要: Exact Asymptotics for Linear Quadratic Adaptive Control
- arxiv url: http://arxiv.org/abs/2011.01364v1
- Date: Mon, 2 Nov 2020 22:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:27:15.329224
- Title: Exact Asymptotics for Linear Quadratic Adaptive Control
- Title(参考訳): 線形二次適応制御の厳密漸近性
- Authors: Feicheng Wang and Lucas Janson
- Abstract要約: 最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
- 参考スコア(独自算出の注目度): 6.287145010885044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in reinforcement learning has led to remarkable performance
in a range of applications, but its deployment in high-stakes settings remains
quite rare. One reason is a limited understanding of the behavior of
reinforcement algorithms, both in terms of their regret and their ability to
learn the underlying system dynamics---existing work is focused almost
exclusively on characterizing rates, with little attention paid to the
constants multiplying those rates that can be critically important in practice.
To start to address this challenge, we study perhaps the simplest non-bandit
reinforcement learning problem: linear quadratic adaptive control (LQAC). By
carefully combining recent finite-sample performance bounds for the LQAC
problem with a particular (less-recent) martingale central limit theorem, we
are able to derive asymptotically-exact expressions for the regret, estimation
error, and prediction error of a rate-optimal stepwise-updating LQAC algorithm.
In simulations on both stable and unstable systems, we find that our asymptotic
theory also describes the algorithm's finite-sample behavior remarkably well.
- Abstract(参考訳): 強化学習の最近の進歩は、様々なアプリケーションで顕著なパフォーマンスをもたらしたが、ハイテイクな設定での展開は、非常に稀である。
ひとつは強化アルゴリズムの振る舞いの限定的な理解であり、その後悔と基礎となるシステムのダイナミクスを学習する能力の両面において、既存の作業はほとんど特性化率にのみ焦点を合わせており、実際は極めて重要な速度を乗じる定数にはほとんど注意を払わない。
この課題に取り組むために,線形二次適応制御(lqac)という,最も単純な非帯域強化学習問題について検討する。
LQAC問題に対する最近の有限サンプル性能境界と、特定の(最近の)マーチンゲール中央極限定理を慎重に組み合わせることで、リット、推定誤差、およびレート最適ステップワイド更新LQACアルゴリズムの予測誤差を漸近的に表すことができる。
安定系と不安定系のシミュレーションにおいて、我々の漸近理論はアルゴリズムの有限サンプル挙動を著しくうまく記述している。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Rethinking SIGN Training: Provable Nonconvex Acceleration without First-
and Second-Order Gradient Lipschitz [66.22095739795068]
符号ベースの手法は、パラメータ更新にのみ符号情報を使用するにもかかわらず、堅牢な性能を達成する能力によって注目されている。
符号に基づく手法の現在の収束解析は、一階加速度と二階加速度の強い仮定に依存する。
本稿では,より現実的な第1次および第2次加速度の仮定の下で,それらの収束を解析する。
論文 参考訳(メタデータ) (2023-10-23T06:48:43Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Instance-Optimality in Interactive Decision Making: Toward a
Non-Asymptotic Theory [30.061707627742766]
適応性の強い概念であるインスタンス最適化を目指しており、どの問題の場合であっても、検討中のアルゴリズムは全ての一貫したアルゴリズムより優れていると主張する。
本稿では,一般関数近似を用いたインスタンス最適決定の非漸近的理論の開発に向けて第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-04-24T21:51:58Z) - Self-adaptive algorithms for quasiconvex programming and applications to
machine learning [0.0]
凸線探索技術や,軽微な仮定の下での汎用的アプローチを含まない,自己適応的なステップサイズ戦略を提案する。
提案手法は,いくつかの計算例から予備的な結果によって検証される。
大規模問題に対する提案手法の有効性を実証するため,機械学習実験に適用した。
論文 参考訳(メタデータ) (2022-12-13T05:30:29Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - A Dynamic Penalty Function Approach for Constraints-Handling in
Reinforcement Learning [0.0]
本研究では,制約付き最適制御問題の解法としてReinforcement Learning (RL) を用いる。
ニューラルネットワークをトレーニングして値(あるいはQ)関数を学習する際、制約境界における関数値の急激な変化に起因する計算問題に遭遇することができる。
この訓練中の難易度は収束問題につながり、最終的にはクローズドループ性能が低下する。
論文 参考訳(メタデータ) (2020-12-22T02:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。