論文の概要: Non-Stochastic Control with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2008.05523v1
- Date: Wed, 12 Aug 2020 18:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:04:25.615001
- Title: Non-Stochastic Control with Bandit Feedback
- Title(参考訳): バンディットフィードバックを用いた非確率制御
- Authors: Paula Gradu and John Hallman and Elad Hazan
- Abstract要約: 未知あるいは未知のシステムに対して,効率的なサブ線形後悔アルゴリズムを提案する。
アルゴリズムの主な難しさは、過去の制御への損失の依存である。
本稿では,メモリを有する損失関数に対して,バンド凸最適化の一般設定のための効率的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 30.33117611898598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of controlling a linear dynamical system with
adversarial perturbations where the only feedback available to the controller
is the scalar loss, and the loss function itself is unknown. For this problem,
with either a known or unknown system, we give an efficient sublinear regret
algorithm. The main algorithmic difficulty is the dependence of the loss on
past controls. To overcome this issue, we propose an efficient algorithm for
the general setting of bandit convex optimization for loss functions with
memory, which may be of independent interest.
- Abstract(参考訳): 本研究では, 制御器に利用可能なフィードバックがスカラーロスのみであり, 損失関数自体が不明な線形力学系を逆摂動で制御する問題について検討する。
この問題に対して、既知のシステムまたは未知のシステムにおいて、効率的なサブ線形後悔アルゴリズムを与える。
アルゴリズムの主な困難は、過去の制御への損失の依存である。
この問題を解決するために,メモリを持つ損失関数に対して,バンド凸最適化を一般化するための効率的なアルゴリズムを提案する。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Data-Driven Adversarial Online Control for Unknown Linear Systems [17.595231077524467]
このオンライン制御問題に対処する新しいデータ駆動型オンライン適応制御アルゴリズムを提案する。
我々のアルゴリズムは、高い確率で有界な$tmO(T2/3)の後悔勾配を保証し、この問題の最もよく知られた後悔勾配と一致する。
論文 参考訳(メタデータ) (2023-08-16T04:05:22Z) - Efficient Online Linear Control with Stochastic Convex Costs and Unknown
Dynamics [0.0]
本稿では,最良安定化線形コントローラに対して,最適$sqrtT$後悔率を得る計算効率のよいアルゴリズムを提案する。
これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。
論文 参考訳(メタデータ) (2022-03-02T15:19:20Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Persistent Reductions in Regularized Loss Minimization for Variable
Selection [3.3504365823045035]
広い種類の損失関数に対して、係数がゼロであることが保証される部分集合を効率的に同定できることが示される。
我々は、超高次元問題に適用できるように、既存のレイアルゴリズムを極端線識別に使用し、保証アルゴリズムを適用させる。
論文 参考訳(メタデータ) (2020-11-30T04:59:44Z) - Bandit Linear Control [0.0]
ノイズ, 逆選択コスト, および帯域フィードバックの下で既知の線形力学系を制御することの問題点を考察する。
我々は,強い凸とスムーズなコストのために,時間的地平線の平方根で成長する後悔を得る,新しい効率的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-01T21:12:19Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。