Fugu-MT 論文翻訳(概要): On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator

論文の概要: On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator

arxiv url: http://arxiv.org/abs/2209.05042v2
Date: Thu, 18 May 2023 23:56:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 19:42:16.622688
Title: On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator
Title（参考訳）: 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として
Authors: Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao
Abstract要約: ポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。線形二次規制のための動的出力フィードバックポリシー(dLQR)のより困難な場合について検討する。我々の中核的な成果の1つは、観測可能な場合の dLQR の定常点の特異性であり、動的コントローラを解くための最適性証明を提供する。
参考スコア（独自算出の注目度）: 7.681602084128752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The convergence of policy gradient algorithms hinges on the optimization landscape of the underlying optimal control problem. Theoretical insights into these algorithms can often be acquired from analyzing those of linear quadratic control. However, most of the existing literature only considers the optimization landscape for static full-state or output feedback policies (controllers). We investigate the more challenging case of dynamic output-feedback policies for linear quadratic regulation (abbreviated as dLQR), which is prevalent in practice but has a rather complicated optimization landscape. We first show how the dLQR cost varies with the coordinate transformation of the dynamic controller and then derive the optimal transformation for a given observable stabilizing controller. One of our core results is the uniqueness of the stationary point of dLQR when it is observable, which provides an optimality certificate for solving dynamic controllers using policy gradient methods. Moreover, we establish conditions under which dLQR and linear quadratic Gaussian control are equivalent, thus providing a unified viewpoint of optimal control of both deterministic and stochastic linear systems. These results further shed light on designing policy gradient algorithms for more general decision-making problems with partially observed information.
Abstract（参考訳）: ポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。我々の中核的な成果の1つは、観測可能な場合のdLQRの定常点の特異性であり、ポリシー勾配法を用いて動的コントローラを解くための最適性証明を提供する。さらに、dLQRと線形二次ガウス制御が等価である条件を確立し、決定論的および確率的線形系の最適制御の統一的な視点を提供する。これらの結果は、部分的に観測された情報を含むより一般的な意思決定問題に対するポリシー勾配アルゴリズムの設計に光を当てた。

関連論文リスト

Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation [3.885549098032255]
動的出力フィードバック学習制御を用いて,未知の離散時間系の線形2次制御問題について検討する。状態フィードバックとは対照的に、LQR問題を解決するための動的出力フィードバック制御の最適性は、状態オブザーバの収束に関する暗黙の条件を必要とする。本稿では、収束性、安定性、最適性性能を保証した一般化された動的出力フィードバック学習制御手法を提案する。
論文参考訳（メタデータ） (2025-03-08T14:02:16Z)
Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T13:39:45Z)
A novel algorithm for optimizing bundle adjustment in image sequence alignment [6.322876598831792]
本稿では,低温電子トモグラフィーにおける画像シーケンスアライメントの文脈におけるバンドル調整(BA)モデルを最適化するための新しいアルゴリズムを提案する。アルゴリズムの性能を評価するために、合成データセットと実世界のデータセットの両方に関する大規模な実験を行った。
論文参考訳（メタデータ） (2024-11-10T03:19:33Z)
Optimal DLT-based Solutions for the Perspective-n-Point [0.0]
パースペクティブn-point(Newton)を解くための修正直線形(DLT)アルゴリズムを提案する。この修正は、線形系における異なる測定を解析的に重み付けし、計算負荷を無視できるほど増加させる。当社のアプローチは、パフォーマンスとランタイムの両方の改善をクリアします。
論文参考訳（メタデータ） (2024-10-18T04:04:58Z)
Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文参考訳（メタデータ） (2024-05-14T16:40:45Z)
Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。 Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文参考訳（メタデータ） (2023-12-28T23:15:18Z)
Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。 1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文参考訳（メタデータ） (2023-01-28T01:50:42Z)
Towards a Theoretical Foundation of Policy Optimization for Learning Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文参考訳（メタデータ） (2022-10-10T16:13:34Z)
Exploring the Algorithm-Dependent Generalization of AUPRC Optimization with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。 3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文参考訳（メタデータ） (2022-09-27T09:06:37Z)
Learning Stochastic Optimal Policies via Gradient Descent [17.9807134122734]
学習に基づく最適制御処理(SOC)を体系的に開発する。本稿では, 微分方程式に対する随伴感度の導出について, 変分計算の直接適用により提案する。本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-07T16:43:07Z)
Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文参考訳（メタデータ） (2020-11-02T18:02:26Z)
Direct Optimal Control Approach to Laser-Driven Quantum Particle Dynamics [77.34726150561087]
間接制御理論に対する頑健で柔軟な代替手段として, 直接最適制御を提案する。この方法は、バイスタブルポテンシャルにおけるレーザー駆動のウェーブパレットダイナミクスの場合に説明される。
論文参考訳（メタデータ） (2020-10-08T07:59:29Z)
A Primer on Zeroth-Order Optimization in Signal Processing and Machine Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文参考訳（メタデータ） (2020-06-11T06:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。