論文の概要: Differentiable Robust LQR Layers
- arxiv url: http://arxiv.org/abs/2106.05535v1
- Date: Thu, 10 Jun 2021 06:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:05:30.258334
- Title: Differentiable Robust LQR Layers
- Title(参考訳): 可変ロバストLQR層
- Authors: Ngo Anh Vien and Gerhard Neumann
- Abstract要約: 本稿では,モデル不確実性と動的性の下での強化学習と模倣学習のための,識別可能な頑健なLQR層を提案する。
制御系における新しいタイプの帰納バイアス量と不確実性モデリングを提供する。
実験結果から,不確実な状況下でのロバストポリシを最適化できることがわかった。
- 参考スコア(独自算出の注目度): 26.67150576276949
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a differentiable robust LQR layer for reinforcement
learning and imitation learning under model uncertainty and stochastic
dynamics. The robust LQR layer can exploit the advantages of robust optimal
control and model-free learning. It provides a new type of inductive bias for
stochasticity and uncertainty modeling in control systems. In particular, we
propose an efficient way to differentiate through a robust LQR optimization
program by rewriting it as a convex program (i.e. semi-definite program) of the
worst-case cost. Based on recent work on using convex optimization inside
neural network layers, we develop a fully differentiable layer for optimizing
this worst-case cost, i.e. we compute the derivative of a performance measure
w.r.t the model's unknown parameters, model uncertainty and stochasticity
parameters. We demonstrate the proposed method on imitation learning and
approximate dynamic programming on stochastic and uncertain domains. The
experiment results show that the proposed method can optimize robust policies
under uncertain situations, and are able to achieve a significantly better
performance than existing methods that do not model uncertainty directly.
- Abstract(参考訳): 本稿では,モデル不確実性と確率力学に基づく強化学習と模倣学習のための,微分可能な頑健なLQR層を提案する。
ロバストなlqr層はロバスト最適制御とモデルフリー学習の利点を活用できる。
制御系における確率性と不確実性モデリングのための新しいタイプの帰納バイアスを提供する。
特に,ロバストなlqr最適化プログラムを凸プログラムとして書き換えることで,効率的な識別手法を提案する。
最悪のケースコストの半確定プログラム)。
ニューラルネットワーク層の内部で凸最適化を使用することに関する最近の研究に基づいて、この最悪のコストを最適化する、完全に差別化可能なレイヤを開発する。
評価尺度 w.r.t の導出をモデルの未知パラメータ、モデル不確かさ、確率パラメータとして計算する。
確率的および不確実な領域における模倣学習と近似動的プログラミングの手法を実証する。
実験の結果,提案手法は不確定な状況下でロバストなポリシーを最適化でき,不確実性を直接モデル化しない既存の手法よりも大幅に優れた性能が得られることがわかった。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Robust Regression via Model Based Methods [13.300549123177705]
モデルベース最適化 (MBO) [35, 36] に着想を得たアルゴリズムを提案し, 非対象を凸モデル関数に置き換える。
これをロバスト回帰に適用し、MBOの内部最適化を解くために、オンライン乗算器のオンライン交互方向法(OOADM) [50] の関数 SADM を提案する。
最後に、(a)アウトレーヤに対するl_pノルムのロバスト性、(b)オートエンコーダ法とマルチターゲット回帰法と比較して、提案したモデルベースアルゴリズムの効率性を実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T21:45:35Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Data-Driven Robust Optimization using Unsupervised Deep Learning [0.0]
逆問題に対して凸混合整数プログラムとして定式化することにより、トレーニングされたニューラルネットワークをロバストな最適化モデルに統合できることを示す。
このアプローチは、カーネルベースのサポートベクターセットを用いて、同様のアプローチより優れていることが判明した。
論文 参考訳(メタデータ) (2020-11-19T11:06:54Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Uncertainty Modelling in Risk-averse Supply Chain Systems Using
Multi-objective Pareto Optimization [0.0]
サプライチェーンモデリングにおける困難なタスクの1つは、不規則な変動に対して堅牢なモデルを構築することである。
我々は、不確実性を扱うためのパレート最適化(Pareto Optimization)という新しい手法を導入し、これらの不確実性のエントロピーをアプリオリ仮定の下で明示的にモデル化することで拘束する。
論文 参考訳(メタデータ) (2020-04-24T21:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。