論文の概要: Convex Optimization-based Policy Adaptation to Compensate for
Distributional Shifts
- arxiv url: http://arxiv.org/abs/2304.02324v1
- Date: Wed, 5 Apr 2023 09:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:51:02.415275
- Title: Convex Optimization-based Policy Adaptation to Compensate for
Distributional Shifts
- Title(参考訳): 分布シフト補償のための凸最適化に基づくポリシー適応
- Authors: Navid Hashemi, Justin Ruths, Jyotirmoy V. Deshmukh
- Abstract要約: より優れたエラー性能と高速な計算時間で最適軌道を追跡するポリシーを学習できることが示される。
本研究では,デュビンの車載モデルを用いた最適経路の追尾と,線形モデルと非線形モデルの両方を用いた衝突回避の有効性を示す。
- 参考スコア(独自算出の注目度): 0.991395455012393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many real-world systems often involve physical components or operating
environments with highly nonlinear and uncertain dynamics. A number of
different control algorithms can be used to design optimal controllers for such
systems, assuming a reasonably high-fidelity model of the actual system.
However, the assumptions made on the stochastic dynamics of the model when
designing the optimal controller may no longer be valid when the system is
deployed in the real-world. The problem addressed by this paper is the
following: Suppose we obtain an optimal trajectory by solving a control problem
in the training environment, how do we ensure that the real-world system
trajectory tracks this optimal trajectory with minimal amount of error in a
deployment environment. In other words, we want to learn how we can adapt an
optimal trained policy to distribution shifts in the environment. Distribution
shifts are problematic in safety-critical systems, where a trained policy may
lead to unsafe outcomes during deployment. We show that this problem can be
cast as a nonlinear optimization problem that could be solved using heuristic
method such as particle swarm optimization (PSO). However, if we instead
consider a convex relaxation of this problem, we can learn policies that track
the optimal trajectory with much better error performance, and faster
computation times. We demonstrate the efficacy of our approach on tracking an
optimal path using a Dubin's car model, and collision avoidance using both a
linear and nonlinear model for adaptive cruise control.
- Abstract(参考訳): 多くの現実世界のシステムは、しばしば非常に非線形で不確実な力学を持つ物理部品や操作環境を含む。
多くの異なる制御アルゴリズムは、実際のシステムの適度な忠実度モデルを仮定して、そのようなシステムのための最適コントローラを設計するのに使うことができる。
しかし、最適コントローラを設計する際のモデルの確率的ダイナミクスに基づく仮定は、システムが実世界でデプロイされた場合、もはや有効ではないかもしれない。
訓練環境における制御問題を解いて最適軌道を得る場合, 実世界のシステム軌道がこの最適軌道を, 最小限の誤差で追跡することを保証するには, どのようにすればよいか。
言い換えれば、私たちは、環境の分散シフトに最適なトレーニングされたポリシーを適用する方法を学びたいのです。
安全クリティカルなシステムでは、トレーニングされたポリシーがデプロイ中に安全でない結果をもたらす可能性がある。
粒子群最適化(PSO)のようなヒューリスティック手法を用いて解くことができる非線形最適化問題として,この問題を論じることができる。
しかし、この問題の凸緩和を考える代わりに、最適な軌道を追跡するポリシーを学習し、より優れたエラー性能とより高速な計算時間を得ることができる。
本手法は,ドビンの車モデルを用いた最適経路追尾と,適応クルーズ制御のための線形および非線形モデルを用いた衝突回避効果を示す。
関連論文リスト
- Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - Neural ODEs as Feedback Policies for Nonlinear Optimal Control [1.8514606155611764]
ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:19:26Z) - Safe and Efficient Model-free Adaptive Control via Bayesian Optimization [39.962395119933596]
適応制御のための純粋データ駆動型モデルフリーアプローチを提案する。
システムデータのみに基づく低レベルコントローラのチューニングは、アルゴリズムの安全性と計算性能に懸念を生じさせる。
我々は,提案手法がサンプル効率であり,安全性の観点から制約ベイズ最適化よりも優れており,グリッド評価によって計算された性能オプティマを達成することを数値的に示す。
論文 参考訳(メタデータ) (2021-01-19T19:15:00Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Local Policy Optimization for Trajectory-Centric Reinforcement Learning [31.495672846638346]
多くのロボット操作タスクは軌道中心であり、グローバルモデルやポリシーを必要としない。
本稿では、軌道中心モデルに基づく強化学習のための局所ポリシーを生成するために、同時軌道安定化ポリシーと局所安定化ポリシーの最適化手法を提案する。
論文 参考訳(メタデータ) (2020-01-22T15:56:00Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。