論文の概要: Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret
- arxiv url: http://arxiv.org/abs/2211.11219v1
- Date: Mon, 21 Nov 2022 07:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:03:18.860756
- Title: Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret
- Title(参考訳): オンラインコントロールにおける両世界のベスト:競争比率と政策後悔
- Authors: Gautam Goel, Naman Agarwal, Karan Singh, Elad Hazan
- Abstract要約: 我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
- 参考スコア(独自算出の注目度): 61.59646565655169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the fundamental problem of online control of a linear dynamical
system from two different viewpoints: regret minimization and competitive
analysis. We prove that the optimal competitive policy is well-approximated by
a convex parameterized policy class, known as a disturbance-action control
(DAC) policies. Using this structural result, we show that several recently
proposed online control algorithms achieve the best of both worlds: sublinear
regret vs. the best DAC policy selected in hindsight, and optimal competitive
ratio, up to an additive correction which grows sublinearly in the time
horizon. We further conclude that sublinear regret vs. the optimal competitive
policy is attainable when the linear dynamical system is unknown, and even when
a stabilizing controller for the dynamics is not available a priori.
- Abstract(参考訳): 後悔の最小化と競争分析という2つの視点から線形力学系のオンライン制御の基本問題を考える。
最適競争政策は、外乱行動制御(dac)ポリシーとして知られる凸パラメータ化政策クラスによって近似されていることが証明される。
この構造的結果を用いて,最近提案されているオンライン制御アルゴリズムが,後見性で選択された最良dacポリシーと最適競合比と,時間軸でsublinearに増大する付加的補正という,両世界のベストを実現したことを示す。
さらに、線形力学系が未知である場合や、力学系に対する安定化コントローラが事前利用できない場合においても、サブ線形後悔対最適競争政策が達成可能であると結論付けている。
関連論文リスト
- Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Online Algorithms and Policies Using Adaptive and Machine Learning
Approaches [0.22020053359163297]
非線形力学系の2つのクラスが考慮され、どちらも制御アフィンである。
本稿では,外ループにおける強化学習に基づくポリシーの組み合わせを,名目力学の安定性と最適性を確保するために好適に選択する。
リアルタイム制御による安定性保証の確立に加えて、AC-RLコントローラは、持続的な励振を伴うパラメータ学習につながることも示している。
論文 参考訳(メタデータ) (2021-05-13T22:51:25Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Competitive Policy Optimization [137.17299766844596]
本稿では,競争ゲームのゲーム理論的性質を利用してポリシー更新を導出する新しいポリシー勾配手法を提案する。
競合勾配最適化法により、ゲーム目標の双線形近似を導出する。
私たちは、包括的で、挑戦的で、競争的なゲームのセットで、彼らの振る舞いを経験的に調査します。
論文 参考訳(メタデータ) (2020-06-18T15:31:09Z) - The Power of Linear Controllers in LQR Control [39.76359052907755]
我々は3つの異なる統制政策の間の後悔の政策を計算します。
最適オフライン線形ポリシーのコストは、最適オンラインポリシーのコストに収束することを示す。
ノイズの所在に焦点をあてるが, 適応的相手が雑音を選択すると, 満足できる政策に新たな下限が生じることが示唆される。
論文 参考訳(メタデータ) (2020-02-07T00:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。