論文の概要: Learning Robust Feedback Policies from Demonstrations
- arxiv url: http://arxiv.org/abs/2103.16629v1
- Date: Tue, 30 Mar 2021 19:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:40:05.344994
- Title: Learning Robust Feedback Policies from Demonstrations
- Title(参考訳): デモからロバストフィードバックポリシーを学ぶ
- Authors: Abed AlRahman Al Makdah and Vishaal Krishnan and Fabio Pasqualetti
- Abstract要約: 閉ループ性能と境界(逆)摂動に対する堅牢性に関する実証可能な保証を示すフィードバック制御ポリシーを学ぶための新しいフレームワークを提案し、分析する。
これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。
- 参考スコア(独自算出の注目度): 9.34612743192798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we propose and analyze a new framework to learn feedback control
policies that exhibit provable guarantees on the closed-loop performance and
robustness to bounded (adversarial) perturbations. These policies are learned
from expert demonstrations without any prior knowledge of the task, its cost
function, and system dynamics. In contrast to the existing algorithms in
imitation learning and inverse reinforcement learning, we use a
Lipschitz-constrained loss minimization scheme to learn control policies with
certified robustness. We establish robust stability of the closed-loop system
under the learned control policy and derive an upper bound on its regret, which
bounds the sub-optimality of the closed-loop performance with respect to the
expert policy. We also derive a robustness bound for the deterioration of the
closed-loop performance under bounded (adversarial) perturbations on the state
measurements. Ultimately, our results suggest the existence of an underlying
tradeoff between nominal closed-loop performance and adversarial robustness,
and that improvements in nominal closed-loop performance can only be made at
the expense of robustness to adversarial perturbations. Numerical results
validate our analysis and demonstrate the effectiveness of our robust feedback
policy learning framework.
- Abstract(参考訳): 本研究では,閉ループ性能の証明可能な保証と,有界(逆)摂動に対する堅牢性を示すフィードバック制御ポリシを学習するための新しいフレームワークを提案し,分析する。
これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。
擬似学習や逆強化学習における既存のアルゴリズムとは対照的に,リプシッツ制約による損失最小化方式を用いて,信頼性の高いロバスト性を持つ制御ポリシを学習する。
我々は,学習制御ポリシの下で閉ループシステムの堅牢な安定性を確立し,その後悔の上限を導出し,エキスパートポリシに対する閉ループ性能の準最適性の境界を定めている。
また, 状態測定における有界(逆)摂動下での閉ループ性能の劣化に対するロバスト性も導出する。
結論として,公称クローズドループ性能と敵対的ロバスト性との根本的なトレードオフが存在することを示唆し,公称クローズドループ性能の改善は,敵対的摂動に対するロバストネスを犠牲にしてのみ行うことができることを示唆した。
分析結果を検証し,ロバストなフィードバックポリシ学習フレームワークの有効性を実証する。
関連論文リスト
- Balancing policy constraint and ensemble size in uncertainty-based
offline reinforcement learning [7.462336024223669]
不確実性を規制するメカニズムとして,政策制約の役割について検討する。
行動クローンをポリシー更新に組み込むことで、より小さなアンサンブルサイズで十分な罰則を実現できることを示す。
このような手法がオンラインの微調整を安定させ、厳格な性能低下を回避しつつ、継続的な政策改善を可能にしていることを示す。
論文 参考訳(メタデータ) (2023-03-26T13:03:11Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。