論文の概要: Bandit Linear Control
- arxiv url: http://arxiv.org/abs/2007.00759v1
- Date: Wed, 1 Jul 2020 21:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:17:42.100530
- Title: Bandit Linear Control
- Title(参考訳): バンディット線形制御
- Authors: Asaf Cassel (1), Tomer Koren ((1) School of Computer Science, Tel Aviv
University)
- Abstract要約: ノイズ, 逆選択コスト, および帯域フィードバックの下で既知の線形力学系を制御することの問題点を考察する。
我々は,強い凸とスムーズなコストのために,時間的地平線の平方根で成長する後悔を得る,新しい効率的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of controlling a known linear dynamical system under
stochastic noise, adversarially chosen costs, and bandit feedback. Unlike the
full feedback setting where the entire cost function is revealed after each
decision, here only the cost incurred by the learner is observed. We present a
new and efficient algorithm that, for strongly convex and smooth costs, obtains
regret that grows with the square root of the time horizon $T$. We also give
extensions of this result to general convex, possibly non-smooth costs, and to
non-stochastic system noise. A key component of our algorithm is a new
technique for addressing bandit optimization of loss functions with memory.
- Abstract(参考訳): 本稿では,確率的雑音下での既知の線形力学系制御の問題,逆選択コスト,帯域フィードバックについて考察する。
決定後、全コスト関数が明らかにされる完全なフィードバック設定とは異なり、ここでは学習者によるコストのみを観測する。
我々は, 強い凸と滑らかなコストのために, 時間的地平線の平方根で成長する後悔を得る, 新たな効率的アルゴリズムを提案する。
また、この結果を一般凸、おそらく非滑らかなコスト、非確率的なシステムノイズにも拡張する。
このアルゴリズムの重要な要素は,記憶を伴う損失関数のバンドイット最適化に対処する新しい手法である。
関連論文リスト
- Tight Rates for Bandit Control Beyond Quadratics [2.961909021941052]
目的を達成するアルゴリズムを開発する。
tildeO(T)$ は帯域非確率な滑らかな摂動関数に対する最適制御である。
私たちの主な貢献は、目的を達成するアルゴリズムです。
tildeO(T)$はメモリなしでBandit Convex(BCO)の最適制御である。
論文 参考訳(メタデータ) (2024-10-01T18:35:08Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Rate-Optimal Online Convex Optimization in Adaptive Linear Control [0.0]
コストの逆変化による未知凸線形系の制御について考察する。
最適線形後角関数を実現するための最初の計算式を提示する。
論文 参考訳(メタデータ) (2022-06-03T07:32:11Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Efficient Online Linear Control with Stochastic Convex Costs and Unknown
Dynamics [0.0]
本稿では,最良安定化線形コントローラに対して,最適$sqrtT$後悔率を得る計算効率のよいアルゴリズムを提案する。
これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。
論文 参考訳(メタデータ) (2022-03-02T15:19:20Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Non-Stochastic Control with Bandit Feedback [30.33117611898598]
未知あるいは未知のシステムに対して,効率的なサブ線形後悔アルゴリズムを提案する。
アルゴリズムの主な難しさは、過去の制御への損失の依存である。
本稿では,メモリを有する損失関数に対して,バンド凸最適化の一般設定のための効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-12T18:40:00Z) - Making Non-Stochastic Control (Almost) as Easy as Stochastic [27.736345095024276]
より一般的な非確率的制御モデルにおいても、同じ後悔率が達成可能であることを示す。
学習者にとってダイナミクスが不明な場合に、最適な$widetildemathcalO(sqrtT)$ regretを得る。
論文 参考訳(メタデータ) (2020-06-10T16:00:14Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。