論文の概要: Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic
Systems
- arxiv url: http://arxiv.org/abs/2201.10542v2
- Date: Fri, 24 Mar 2023 05:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 19:00:44.912576
- Title: Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic
Systems
- Title(参考訳): RBMLE-UCBによる線形二次系の適応制御
- Authors: Akshay Mete, Rahul Singh and P. R. Kumar
- Abstract要約: 我々は'Reward Biased Maximum Likelihood Estimate' (RBMLE) というアプローチを再検討する。
本稿では,RAMLE法のペナルティとUCB法の制約を併用した拡張RBMLE-UCBアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.581678142944318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of controlling an unknown stochastic linear system
with quadratic costs - called the adaptive LQ control problem. We re-examine an
approach called ''Reward Biased Maximum Likelihood Estimate'' (RBMLE) that was
proposed more than forty years ago, and which predates the ''Upper Confidence
Bound'' (UCB) method as well as the definition of ''regret'' for bandit
problems. It simply added a term favoring parameters with larger rewards to the
criterion for parameter estimation. We show how the RBMLE and UCB methods can
be reconciled, and thereby propose an Augmented RBMLE-UCB algorithm that
combines the penalty of the RBMLE method with the constraints of the UCB
method, uniting the two approaches to optimism in the face of uncertainty. We
establish that theoretically, this method retains
$\Tilde{\mathcal{O}}(\sqrt{T})$ regret, the best-known so far. We further
compare the empirical performance of the proposed Augmented RBMLE-UCB and the
standard RBMLE (without the augmentation) with UCB, Thompson Sampling, Input
Perturbation, Randomized Certainty Equivalence and StabL on many real-world
examples including flight control of Boeing 747 and Unmanned Aerial Vehicle. We
perform extensive simulation studies showing that the Augmented RBMLE
consistently outperforms UCB, Thompson Sampling and StabL by a huge margin,
while it is marginally better than Input Perturbation and moderately better
than Randomized Certainty Equivalence.
- Abstract(参考訳): 適応LQ制御問題(Adaptive LQ control problem)と呼ばれる2次コストで未知の確率線形系を制御する問題を考える。
我々は40年以上前に提案された「RBMLE(Reward Biased Maximum Likelihood Estimate)」という手法を再検討し、盗賊問題に対する「Regret」の定義とともに「Upper Confidence Bound(UCB)」法を先行した。
単にパラメータ推定の基準により大きな報酬を持つパラメータを好む項を追加しただけである。
本研究では,rbmle法とucb法を両立させる方法を示し,rbmle法のペナルティとucb法の制約を組み合わせた拡張rbmle-ucbアルゴリズムを提案する。
理論的には、この手法はこれまでの最もよく知られている$\tilde{\mathcal{o}}(\sqrt{t})$ regretを保っている。
さらに,提案する拡張型rbmle-ucbと標準のrbmleを,ucb,トンプソンサンプリング,入力摂動,ランダム化された確実性等価性,stablで比較し,ボーイング747の飛行制御や無人航空機などの実世界の実例と比較した。
拡張 RBMLE は UCB, Thompson Sampling および StabL を大差で一貫した性能を保ちながら, 入力摂動よりも極端に優れ, ランダム化された不確実性等価性よりも適度に優れていることを示した。
関連論文リスト
- Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits [0.0]
対称な報酬分布のための分布自由データ駆動型 UCB アルゴリズムを提案する。
パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。
論文 参考訳(メタデータ) (2024-06-09T10:06:50Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Neural Contextual Bandits via Reward-Biased Maximum Likelihood
Estimation [9.69596041242667]
Reward-biased maximum max estimation (RBMLE) は、探索・探索トレードオフに対処するための適応制御文学における古典的な原理である。
本稿では,一般有界報酬関数を用いた文脈的バンディット問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。
両アルゴリズムは、非線形報酬関数を持つ実世界のデータセットにおける最先端の手法と比較して、同等またはより良い経験的後悔を実現する。
論文 参考訳(メタデータ) (2022-03-08T16:33:36Z) - Tuning Confidence Bound for Stochastic Bandits with Bandit Distance [5.818764911456228]
標準 UCB の「距離チューニング」は,提案した距離尺度を用いて行う。
探検バルゲインポイント」は、探検と搾取のトレードオフに関する洞察を与える。
論文 参考訳(メタデータ) (2021-10-06T12:24:07Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Online Learning with Cumulative Oversampling: Application to Budgeted
Influence Maximization [7.893654261799925]
オンライン学習のための累積オーバー(CO)手法を提案する。
私たちのキーとなるアイデアは、各ラウンドで一度更新された信念空間からパラメータ推定をサンプリングすることです。
IMの半帯域に対して,我々のCOベースのアルゴリズムは,理論上はUPBベースのアルゴリズムに匹敵する規模の後悔を達成できることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:46:41Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。