論文の概要: On the Optimization Landscape of Dynamic Output Feedback: A Case Study
for Linear Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2209.05042v2
- Date: Thu, 18 May 2023 23:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:42:16.622688
- Title: On the Optimization Landscape of Dynamic Output Feedback: A Case Study
for Linear Quadratic Regulator
- Title(参考訳): 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として
- Authors: Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao
- Abstract要約: ポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。
線形二次規制のための動的出力フィードバックポリシー(dLQR)のより困難な場合について検討する。
我々の中核的な成果の1つは、観測可能な場合の dLQR の定常点の特異性であり、動的コントローラを解くための最適性証明を提供する。
- 参考スコア(独自算出の注目度): 7.681602084128752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The convergence of policy gradient algorithms hinges on the optimization
landscape of the underlying optimal control problem. Theoretical insights into
these algorithms can often be acquired from analyzing those of linear quadratic
control. However, most of the existing literature only considers the
optimization landscape for static full-state or output feedback policies
(controllers). We investigate the more challenging case of dynamic
output-feedback policies for linear quadratic regulation (abbreviated as dLQR),
which is prevalent in practice but has a rather complicated optimization
landscape. We first show how the dLQR cost varies with the coordinate
transformation of the dynamic controller and then derive the optimal
transformation for a given observable stabilizing controller. One of our core
results is the uniqueness of the stationary point of dLQR when it is
observable, which provides an optimality certificate for solving dynamic
controllers using policy gradient methods. Moreover, we establish conditions
under which dLQR and linear quadratic Gaussian control are equivalent, thus
providing a unified viewpoint of optimal control of both deterministic and
stochastic linear systems. These results further shed light on designing policy
gradient algorithms for more general decision-making problems with partially
observed information.
- Abstract(参考訳): ポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。
これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。
しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。
本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。
まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。
我々の中核的な成果の1つは、観測可能な場合のdLQRの定常点の特異性であり、ポリシー勾配法を用いて動的コントローラを解くための最適性証明を提供する。
さらに、dLQRと線形二次ガウス制御が等価である条件を確立し、決定論的および確率的線形系の最適制御の統一的な視点を提供する。
これらの結果は、部分的に観測された情報を含むより一般的な意思決定問題に対するポリシー勾配アルゴリズムの設計に光を当てた。
関連論文リスト
- Optimal DLT-based Solutions for the Perspective-n-Point [0.0]
パースペクティブn-point(Newton)を解くための修正直線形(DLT)アルゴリズムを提案する。
この修正は、線形系における異なる測定を解析的に重み付けし、計算負荷を無視できるほど増加させる。
当社のアプローチは、パフォーマンスとランタイムの両方の改善をクリアします。
論文 参考訳(メタデータ) (2024-10-18T04:04:58Z) - Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Efficient Online Linear Control with Stochastic Convex Costs and Unknown
Dynamics [0.0]
本稿では,最良安定化線形コントローラに対して,最適$sqrtT$後悔率を得る計算効率のよいアルゴリズムを提案する。
これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。
論文 参考訳(メタデータ) (2022-03-02T15:19:20Z) - Learning Stochastic Optimal Policies via Gradient Descent [17.9807134122734]
学習に基づく最適制御処理(SOC)を体系的に開発する。
本稿では, 微分方程式に対する随伴感度の導出について, 変分計算の直接適用により提案する。
本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-07T16:43:07Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z) - Direct Optimal Control Approach to Laser-Driven Quantum Particle
Dynamics [77.34726150561087]
間接制御理論に対する頑健で柔軟な代替手段として, 直接最適制御を提案する。
この方法は、バイスタブルポテンシャルにおけるレーザー駆動のウェーブパレットダイナミクスの場合に説明される。
論文 参考訳(メタデータ) (2020-10-08T07:59:29Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。