論文の概要: Stronger Regret Bounds for Safe Online Reinforcement Learning in the Linear Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2410.21081v1
- Date: Mon, 28 Oct 2024 14:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:03.518829
- Title: Stronger Regret Bounds for Safe Online Reinforcement Learning in the Linear Quadratic Regulator
- Title(参考訳): リニア擬似レギュレータにおける安全なオンライン強化学習のためのより強いレギュレット境界
- Authors: Benjamin Schiffer, Lucas Janson,
- Abstract要約: 線形擬似レギュレータ(LQR)学習を未知のダイナミクスを用いて研究する。
制約付きLQR学習のための最初の$tildeO_T(sqrtT)$-regretバウンドを示す。
結果の包括的なテーマは、安全を強制することは「自由な探究」をもたらすことである。
- 参考スコア(独自算出の注目度): 5.108909395876561
- License:
- Abstract: Many practical applications of online reinforcement learning require the satisfaction of safety constraints while learning about the unknown environment. In this work, we study Linear Quadratic Regulator (LQR) learning with unknown dynamics, but with the additional constraint that the position must stay within a safe region for the entire trajectory with high probability. Unlike in previous works, we allow for both bounded and unbounded noise distributions and study stronger baselines of nonlinear controllers that are better suited for constrained problems than linear controllers. Due to these complications, we focus on 1-dimensional state- and action- spaces, however we also discuss how we expect the high-level takeaways can generalize to higher dimensions. Our primary contribution is the first $\tilde{O}_T(\sqrt{T})$-regret bound for constrained LQR learning, which we show relative to a specific baseline of non-linear controllers. We then prove that, for any non-linear baseline satisfying natural assumptions, $\tilde{O}_T(\sqrt{T})$-regret is possible when the noise distribution has sufficiently large support and $\tilde{O}_T(T^{2/3})$-regret is possible for any subgaussian noise distribution. An overarching theme of our results is that enforcing safety provides "free exploration" that compensates for the added cost of uncertainty in safety constrained control, resulting in the same regret rate as in the unconstrained problem.
- Abstract(参考訳): オンライン強化学習の実践的応用の多くは、未知の環境について学ぶ際に、安全制約の満足度を必要とする。
本研究では,LQR(Linear Quadratic Regulator)学習について,未知のダイナミックスを用いて検討する。
従来とは違って、有界および非有界の両方のノイズ分布を許容し、線形制御器よりも制約問題に適した非線形制御器の強いベースラインを研究する。
これらの複雑さのため、我々は1次元の状態空間と行動空間に焦点をあてるが、高次テイクアウトが高次元にどのように一般化できるかについても議論する。
我々の主な貢献は、制約付きLQR学習のための最初の$\tilde{O}_T(\sqrt{T})$-regret boundであり、非線形コントローラの特定のベースラインに対するものである。
そして、自然な仮定を満たす任意の非線形ベースラインに対して、ノイズ分布が十分に大きい場合、$\tilde{O}_T(\sqrt{T})$-regretは可能であり、$\tilde{O}_T(T^{2/3})$-regretは任意のガウス雑音分布に対して可能であることを証明した。
本研究の課題は,安全を強制することによって,安全制約制御における不確実性の付加コストを補う「自由探索」が実現され,不拘束問題と同じ後悔率となることである。
関連論文リスト
- Regret Bounds for Episodic Risk-Sensitive Linear Quadratic Regulator [5.445357652101423]
リスクに敏感な線形二次規制は、リスクに敏感な最適制御における最も基本的な問題の1つである。
簡単な最小二乗グリーディアルゴリズムを提案し、そのアルゴリズムが$widetildemathcalO(log N)$ regretを達成することを示す。
これは、エピソード的リスクに敏感な線形二次的レギュレータに対する最初の後悔の束である。
論文 参考訳(メタデータ) (2024-06-08T06:06:20Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Information Theoretic Regret Bounds for Online Nonlinear Control [35.534829914047336]
未知の非線形力学系における逐次制御の問題について検討する。
この枠組みは、離散的かつ連続的な制御入力と非滑らかで微分不可能な力学を許容する一般的な設定を与える。
実験により, 非線形制御タスクへの応用を実証し, モデル力学の学習における探索の利点を実証する。
論文 参考訳(メタデータ) (2020-06-22T17:46:48Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z) - Constrained Upper Confidence Reinforcement Learning [12.919486518128734]
本稿では,報酬関数とコスト関数によって記述される制約が事前に不明な設定に対する高信頼強化学習を拡張した。
我々は,アルゴリズムC-UCRLが,確率1-delta$で学習しながらも,制約を満たすことなく,報酬に対するサブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2020-01-26T00:23:02Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。