論文の概要: Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic
Systems
- arxiv url: http://arxiv.org/abs/2201.10542v1
- Date: Tue, 25 Jan 2022 18:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 16:51:11.889765
- Title: Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic
Systems
- Title(参考訳): RBMLE-UCBによる線形二次系の適応制御
- Authors: Akshay Mete, Rahul Singh and P. R. Kumar
- Abstract要約: 我々は、"Reward-Biased Maximum Likelihood Estimate"(RBMLE)と呼ばれるアプローチを再検討する。
本稿では,RTMLE法とUTB法の制約を併用した拡張アプローチを提案する。
この拡張RBMLE法はUTB法やトンプソン法よりかなり優れていることを示す。
- 参考スコア(独自算出の注目度): 11.581678142944318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of controlling a stochastic linear system with
quadratic costs, when its system parameters are not known to the agent --
called the adaptive LQG control problem. We re-examine an approach called
"Reward-Biased Maximum Likelihood Estimate" (RBMLE) that was proposed more than
forty years ago, and which predates the "Upper Confidence Bound" (UCB) method
as well as the definition of "regret". It simply added a term favoring
parameters with larger rewards to the estimation criterion. We propose an
augmented approach that combines the penalty of the RBMLE method with the
constraint of the UCB method, uniting the two approaches to optimization in the
face of uncertainty. We first establish that theoretically this method retains
$\mathcal{O}(\sqrt{T})$ regret, the best known so far. We show through a
comprehensive simulation study that this augmented RBMLE method considerably
outperforms the UCB and Thompson sampling approaches, with a regret that is
typically less than 50\% of the better of their regrets. The simulation study
includes all examples from earlier papers as well as a large collection of
randomly generated systems.
- Abstract(参考訳): 適応型lqg制御問題(adaptive lqg control problem)と呼ばれるエージェントにシステムパラメータが知られていない場合,二次コストで確率線形システムを制御する問題を考える。
我々は40年以上前に提案された"Reward-Biased Maximum Likelihood Estimate"(RBMLE)というアプローチを再検討し、それ以前の"Upper Confidence Bound"(UCB)手法と"Regret"の定義について検討する。
単に見積もり基準により大きな報酬を持つパラメータを好む用語を追加しただけである。
本稿では,RTMLE法のペナルティとUPB法の制約を組み合わせ,不確実性に直面した2つの最適化手法を結合した拡張アプローチを提案する。
理論上、この手法は$\mathcal{O}(\sqrt{T})$ regretを保っていると最初に証明する。
この拡張RBMLE法はUCBとトンプソンのサンプリング手法よりもかなり優れており、後悔は典型的には50%以下である。
シミュレーション研究は、以前の論文のすべての例と、ランダムに生成されたシステムの大規模なコレクションを含む。
関連論文リスト
- Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits [0.0]
対称な報酬分布のための分布自由データ駆動型 UCB アルゴリズムを提案する。
パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。
論文 参考訳(メタデータ) (2024-06-09T10:06:50Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Neural Contextual Bandits via Reward-Biased Maximum Likelihood
Estimation [9.69596041242667]
Reward-biased maximum max estimation (RBMLE) は、探索・探索トレードオフに対処するための適応制御文学における古典的な原理である。
本稿では,一般有界報酬関数を用いた文脈的バンディット問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。
両アルゴリズムは、非線形報酬関数を持つ実世界のデータセットにおける最先端の手法と比較して、同等またはより良い経験的後悔を実現する。
論文 参考訳(メタデータ) (2022-03-08T16:33:36Z) - Tuning Confidence Bound for Stochastic Bandits with Bandit Distance [5.818764911456228]
標準 UCB の「距離チューニング」は,提案した距離尺度を用いて行う。
探検バルゲインポイント」は、探検と搾取のトレードオフに関する洞察を与える。
論文 参考訳(メタデータ) (2021-10-06T12:24:07Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Online Learning with Cumulative Oversampling: Application to Budgeted
Influence Maximization [7.893654261799925]
オンライン学習のための累積オーバー(CO)手法を提案する。
私たちのキーとなるアイデアは、各ラウンドで一度更新された信念空間からパラメータ推定をサンプリングすることです。
IMの半帯域に対して,我々のCOベースのアルゴリズムは,理論上はUPBベースのアルゴリズムに匹敵する規模の後悔を達成できることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:46:41Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。