論文の概要: On the Optimization Landscape of Dynamic Output Feedback: A Case Study
for Linear Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2209.05042v3
- Date: Sun, 29 Oct 2023 14:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:46:08.225522
- Title: On the Optimization Landscape of Dynamic Output Feedback: A Case Study
for Linear Quadratic Regulator
- Title(参考訳): 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として
- Authors: Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao
- Abstract要約: 動的コントローラの座標変換によってdLQRコストがどう変化するかを示し、次に与えられた可観測安定化コントローラの最適変換を導出する。
これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。
- 参考スコア(独自算出の注目度): 12.255864026960403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The convergence of policy gradient algorithms in reinforcement learning
hinges on the optimization landscape of the underlying optimal control problem.
Theoretical insights into these algorithms can often be acquired from analyzing
those of linear quadratic control. However, most of the existing literature
only considers the optimization landscape for static full-state or output
feedback policies (controllers). We investigate the more challenging case of
dynamic output-feedback policies for linear quadratic regulation (abbreviated
as dLQR), which is prevalent in practice but has a rather complicated
optimization landscape. We first show how the dLQR cost varies with the
coordinate transformation of the dynamic controller and then derive the optimal
transformation for a given observable stabilizing controller. At the core of
our results is the uniqueness of the stationary point of dLQR when it is
observable, which is in a concise form of an observer-based controller with the
optimal similarity transformation. These results shed light on designing
efficient algorithms for general decision-making problems with partially
observed information.
- Abstract(参考訳): 強化学習ヒンジにおけるポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。
これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。
しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。
本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。
まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。
この結果の核となるのは、観測可能な場合の dLQR の定常点の特異性であり、これは最適な類似性変換を持つオブザーバベースのコントローラの簡潔な形式である。
これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。
関連論文リスト
- A novel algorithm for optimizing bundle adjustment in image sequence alignment [6.322876598831792]
本稿では,低温電子トモグラフィーにおける画像シーケンスアライメントの文脈におけるバンドル調整(BA)モデルを最適化するための新しいアルゴリズムを提案する。
アルゴリズムの性能を評価するために、合成データセットと実世界のデータセットの両方に関する大規模な実験を行った。
論文 参考訳(メタデータ) (2024-11-10T03:19:33Z) - Optimal DLT-based Solutions for the Perspective-n-Point [0.0]
パースペクティブn-point(Newton)を解くための修正直線形(DLT)アルゴリズムを提案する。
この修正は、線形系における異なる測定を解析的に重み付けし、計算負荷を無視できるほど増加させる。
当社のアプローチは、パフォーマンスとランタイムの両方の改善をクリアします。
論文 参考訳(メタデータ) (2024-10-18T04:04:58Z) - Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Learning Stochastic Optimal Policies via Gradient Descent [17.9807134122734]
学習に基づく最適制御処理(SOC)を体系的に開発する。
本稿では, 微分方程式に対する随伴感度の導出について, 変分計算の直接適用により提案する。
本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-07T16:43:07Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z) - Direct Optimal Control Approach to Laser-Driven Quantum Particle
Dynamics [77.34726150561087]
間接制御理論に対する頑健で柔軟な代替手段として, 直接最適制御を提案する。
この方法は、バイスタブルポテンシャルにおけるレーザー駆動のウェーブパレットダイナミクスの場合に説明される。
論文 参考訳(メタデータ) (2020-10-08T07:59:29Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。