論文の概要: Follow the Clairvoyant: an Imitation Learning Approach to Optimal
Control
- arxiv url: http://arxiv.org/abs/2211.07389v1
- Date: Mon, 14 Nov 2022 14:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 21:39:48.196718
- Title: Follow the Clairvoyant: an Imitation Learning Approach to Optimal
Control
- Title(参考訳): 透視能力に追従する: 最適制御への模倣学習アプローチ
- Authors: Andrea Martin, Luca Furieri, Florian D\"orfler, John Lygeros,
Giancarlo Ferrari-Trecate
- Abstract要約: 競合解析のレンズによる力学系の制御について考察する。
最適コストが理想的な閉ループ動作に関する粗い情報のみを提供するという観測により、トラッキングエラーを最小化することを提案する。
- 参考スコア(独自算出の注目度): 4.978565634673048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider control of dynamical systems through the lens of competitive
analysis. Most prior work in this area focuses on minimizing regret, that is,
the loss relative to an ideal clairvoyant policy that has noncausal access to
past, present, and future disturbances. Motivated by the observation that the
optimal cost only provides coarse information about the ideal closed-loop
behavior, we instead propose directly minimizing the tracking error relative to
the optimal trajectories in hindsight, i.e., imitating the clairvoyant policy.
By embracing a system level perspective, we present an efficient
optimization-based approach for computing follow-the-clairvoyant (FTC) safe
controllers. We prove that these attain minimal regret if no constraints are
imposed on the noncausal benchmark. In addition, we present numerical
experiments to show that our policy retains the hallmark of competitive
algorithms of interpolating between classical $\mathcal{H}_2$ and
$\mathcal{H}_\infty$ control laws - while consistently outperforming regret
minimization methods in constrained scenarios thanks to the superior ability to
chase the clairvoyant.
- Abstract(参考訳): 我々は,競争分析のレンズを通して力学系の制御を考える。
この分野における多くの先行研究は、過去、現在、そして将来の混乱への非因果的アクセスを持つ理想的な透視政策に対する損失を最小化することに焦点を当てている。
最適コストが理想的閉ループ行動に関する粗い情報のみを提供するという観測に動機づけられ、代わりに後見における最適軌道に対する追跡誤差を直接最小化すること、すなわち透視性ポリシーを模倣することを提案する。
システムレベルでの視点を取り入れることで,追従サーベイラント(FTC)セーフコントローラの効率的な最適化手法を提案する。
非因果ベンチマークに制約が課せられなければ、これらが最小限の後悔を達成できることを証明します。
さらに,従来の$\mathcal{H}_2$と$\mathcal{H}_\infty$制御法を補間する競合アルゴリズムの目印を保ちながら,制約シナリオにおける後悔の最小化手法を常に上回っていることを示す数値実験を行った。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Rate-Optimal Online Convex Optimization in Adaptive Linear Control [0.0]
コストの逆変化による未知凸線形系の制御について考察する。
最適線形後角関数を実現するための最初の計算式を提示する。
論文 参考訳(メタデータ) (2022-06-03T07:32:11Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。