論文の概要: On Uninformative Optimal Policies in Adaptive LQR with Unknown B-Matrix
- arxiv url: http://arxiv.org/abs/2011.09288v3
- Date: Fri, 30 Apr 2021 05:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:45:30.904060
- Title: On Uninformative Optimal Policies in Adaptive LQR with Unknown B-Matrix
- Title(参考訳): 未知なb行列を持つ適応型lqrにおける不定形最適ポリシーについて
- Authors: Ingvar Ziemann, Henrik Sandberg
- Abstract要約: 適応線形擬似レギュレータ(LQR)の局所最小誤差下限
我々は、アフィン的にパラメータ化された$B$-行列と既知の$A$-行列を考える。
パラメトリゼーションが非形式的最適ポリシーを誘導するならば、対数的後悔は不可能である。
- 参考スコア(独自算出の注目度): 7.507288369705302
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents local asymptotic minimax regret lower bounds for adaptive
Linear Quadratic Regulators (LQR). We consider affinely parametrized
$B$-matrices and known $A$-matrices and aim to understand when logarithmic
regret is impossible even in the presence of structural side information. After
defining the intrinsic notion of an uninformative optimal policy in terms of a
singularity condition for Fisher information we obtain local minimax regret
lower bounds for such uninformative instances of LQR by appealing to van Trees'
inequality (Bayesian Cram\'er-Rao) and a representation of regret in terms of a
quadratic form (Bellman error). It is shown that if the parametrization induces
an uninformative optimal policy, logarithmic regret is impossible and the rate
is at least order square root in the time horizon. We explicitly characterize
the notion of an uninformative optimal policy in terms of the nullspaces of
system-theoretic quantities and the particular instance parametrization.
- Abstract(参考訳): 本稿では,LQR(Linar Quadratic Regulator)に対する局所的漸近的ミニマックス後悔の低域について述べる。
b$-行列と既知のa$-行列を親和的にパラメトリズし,構造的側面情報が存在する場合でも,対数的後悔が不可能である理由を理解することを目的とする。
フィッシャー情報に対する特異性条件の観点から非形式的最適ポリシーの本質的な概念を定義した後、ファン・ツリーの不等式 (Bayesian Cram\'er-Rao) と2次形式 (Bellman error) の項による後悔の表現に訴えて、LQRのそのような非形式的インスタンスに対する局所的ミニマックス後悔の下界を得る。
パラメトリゼーションが非形式的最適ポリシーを誘導した場合、対数的後悔は不可能であり、その速度は時間軸の少なくとも二乗根である。
我々は、システム理論量と特定のインスタンスパラメトリゼーションのヌル空間の観点から、非形式的最適ポリシーの概念を明示的に特徴づける。
関連論文リスト
- On the Hardness of Meaningful Local Guarantees in Nonsmooth Nonconvex Optimization [37.41427897807821]
暗号非既知の正規最適化の複雑さを示す。
リプシッツ関数に作用する局所アルゴリズムは、最悪の場合、亜指数最小値の値に関して有意義な局所を与えることができない。
論文 参考訳(メタデータ) (2024-09-16T14:35:00Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Rate-Distortion Analysis of Minimum Excess Risk in Bayesian Learning [15.544041797200045]
ベイズ学習における最小余剰リスク(MER)は、データから学ぶ際に達成可能な最小損失と、基礎となるパラメータ$W$が観測された場合に達成できる最小損失との差として定義される。
我々は、これらの上界と下界の差に関する情報理論的境界を導出し、それらがMERに対して秩序的に厳密なレートを提供できることを示す。
論文 参考訳(メタデータ) (2021-05-10T08:14:10Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - High-Dimensional Sparse Linear Bandits [67.9378546011416]
データ・ポーア・システマティクスにおける疎線形包帯に対して、新しい$Omega(n2/3)$ dimension-free minimax regret lower boundを導出する。
また、関連する特徴に対する信号の大きさに関する追加の仮定の下で、次元のない$O(sqrtn)$ regret上界も証明する。
論文 参考訳(メタデータ) (2020-11-08T16:48:11Z) - Relaxing the I.I.D. Assumption: Adaptively Minimax Optimal Regret via
Root-Entropic Regularization [16.536558038560695]
我々は、未知の制約セット内でデータを任意に生成する場合、専門家のアドバイスで予測する。
Hedgeアルゴリズムは、最近、i.d.データに対して同時にミニマックス最適であることが示されている。
我々は,すべてのレベルにおいてミニマックス後悔の上限と下限を一致させ,決定論的学習率を持つヘッジが極端外において最適以下であることを示し,すべてのレベルにおいてミニマックス後悔を適応的に得ることを証明した。
論文 参考訳(メタデータ) (2020-07-13T17:54:34Z) - Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in
High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。
本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文 参考訳(メタデータ) (2020-06-16T04:27:38Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。