論文の概要: Efficient Online Linear Control with Stochastic Convex Costs and Unknown
Dynamics
- arxiv url: http://arxiv.org/abs/2203.01170v1
- Date: Wed, 2 Mar 2022 15:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:17:38.755988
- Title: Efficient Online Linear Control with Stochastic Convex Costs and Unknown
Dynamics
- Title(参考訳): 確率凸コストと未知ダイナミクスを用いたオンラインリニア制御
- Authors: Asaf Cassel (1), Alon Cohen (2 and 3), Tomer Koren (1 and 3) ((1)
School of Computer Science, Tel Aviv University, (2) School of Electrical
Engineering, Tel Aviv University, (3) Google Research, Tel Aviv)
- Abstract要約: 本稿では,最良安定化線形コントローラに対して,最適$sqrtT$後悔率を得る計算効率のよいアルゴリズムを提案する。
これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of controlling an unknown linear dynamical system
under a stochastic convex cost and full feedback of both the state and cost
function. We present a computationally efficient algorithm that attains an
optimal $\sqrt{T}$ regret-rate against the best stabilizing linear controller.
In contrast to previous work, our algorithm is based on the Optimism in the
Face of Uncertainty paradigm. This results in a substantially improved
computational complexity and a simpler analysis.
- Abstract(参考訳): 本稿では,未知の線形力学系を確率的凸コストで制御する問題と,状態とコスト関数の完全なフィードバックについて考察する。
最適な安定化線形コントローラに対して最適な$\sqrt{T}$後悔率が得られる計算効率の良いアルゴリズムを提案する。
これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。
これにより、計算の複雑さが大幅に向上し、解析がより簡単になった。
関連論文リスト
- First-Order Dynamic Optimization for Streaming Convex Costs [0.0]
最適解を有界誤差で追従する手法を開発する。
本アルゴリズムはコスト関数の1次微分を用いてのみ実行される。
論文 参考訳(メタデータ) (2023-10-11T22:41:00Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - On Convex Data-Driven Inverse Optimal Control for Nonlinear, Non-stationary and Stochastic Systems [0.7240153598817866]
本稿では, エージェントの動作を駆動する非定常コストの観測から, 再構成を目標とする有限水平逆制御問題について考察する。
本研究では,非定常エージェントコストの対流的な問題を解くことで,コスト最適化を実現する結果を提案する。
すべての実験が我々のアプローチの有効性を確認した。
論文 参考訳(メタデータ) (2023-06-24T10:25:53Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - On the Optimization Landscape of Dynamic Output Feedback: A Case Study
for Linear Quadratic Regulator [12.255864026960403]
動的コントローラの座標変換によってdLQRコストがどう変化するかを示し、次に与えられた可観測安定化コントローラの最適変換を導出する。
これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。
論文 参考訳(メタデータ) (2022-09-12T06:43:35Z) - Rate-Optimal Online Convex Optimization in Adaptive Linear Control [0.0]
コストの逆変化による未知凸線形系の制御について考察する。
最適線形後角関数を実現するための最初の計算式を提示する。
論文 参考訳(メタデータ) (2022-06-03T07:32:11Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。