論文の概要: Globally Convergent Policy Search over Dynamic Filters for Output
Estimation
- arxiv url: http://arxiv.org/abs/2202.11659v1
- Date: Wed, 23 Feb 2022 18:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:00:19.731393
- Title: Globally Convergent Policy Search over Dynamic Filters for Output
Estimation
- Title(参考訳): 出力推定のための動的フィルタによるグローバル収束政策探索
- Authors: Jack Umenberger, Max Simchowitz, Juan C. Perdomo, Kaiqing Zhang, Russ
Tedrake
- Abstract要約: 我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
- 参考スコア(独自算出の注目度): 64.90951294952094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the first direct policy search algorithm which provably
converges to the globally optimal $\textit{dynamic}$ filter for the classical
problem of predicting the outputs of a linear dynamical system, given noisy,
partial observations. Despite the ubiquity of partial observability in
practice, theoretical guarantees for direct policy search algorithms, one of
the backbones of modern reinforcement learning, have proven difficult to
achieve. This is primarily due to the degeneracies which arise when optimizing
over filters that maintain internal state.
In this paper, we provide a new perspective on this challenging problem based
on the notion of $\textit{informativity}$, which intuitively requires that all
components of a filter's internal state are representative of the true state of
the underlying dynamical system. We show that informativity overcomes the
aforementioned degeneracy. Specifically, we propose a $\textit{regularizer}$
which explicitly enforces informativity, and establish that gradient descent on
this regularized objective - combined with a ``reconditioning step'' -
converges to the globally optimal cost a $\mathcal{O}(1/T)$. Our analysis
relies on several new results which may be of independent interest, including a
new framework for analyzing non-convex gradient descent via convex
reformulation, and novel bounds on the solution to linear Lyapunov equations in
terms of (our quantitative measure of) informativity.
- Abstract(参考訳): 本稿では,線形力学系の出力を予測する古典的問題に対して,大域的に最適な$\textit{dynamic}$フィルタに確実に収束する最初の直接ポリシー探索アルゴリズムを提案する。
部分的に観測可能であるにもかかわらず、現代の強化学習のバックボーンの一つである直接ポリシー探索アルゴリズムの理論的保証は達成が困難であることが証明されている。
これは主に内部状態を維持するフィルタを最適化する際に生じる退化によるものである。
本稿では,フィルタの内部状態のすべての成分が基礎となる力学系の真の状態を表すことを直感的に要求する$\textit{informativity}$という概念に基づいて,この問題に対する新たな視点を提供する。
我々は、情報化が前述の退化を克服していることを示す。
具体的には、unformativity を明示的に強制する$\textit{regularizer}$ を提案し、この正規化目的の勾配降下と ``reconditioning step''' を、グローバルな最適コストである$\mathcal{o}(1/t)$ と組み合わせて確立する。
本解析は,凸改質による非凸勾配降下を解析するための新しい枠組みや,線形リアプノフ方程式に対する(定量的な)可視性の観点からの解の新たな境界など,独立した関心を持つであろういくつかの新しい結果に依存している。
関連論文リスト
- Model-Free $\mu$-Synthesis: A Nonsmooth Optimization Perspective [4.477225073240389]
本稿では,重要なポリシー検索ベンチマーク,すなわち$mu$- synthesisを再考する。
本研究では, 段階的な探索手法が, 実際に顕著な数値的な結果をもたらしていることを示す。
論文 参考訳(メタデータ) (2024-02-18T17:17:17Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - The Power of Learned Locally Linear Models for Nonlinear Policy
Optimization [26.45568696453259]
本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。
非線形系力学の局所線形モデルの推定と$mathttiLQR$のようなポリシー更新の繰り返しを行うアルゴリズムを解析する。
論文 参考訳(メタデータ) (2023-05-16T17:13:00Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Iteratively Reweighted Least Squares for $\ell_1$-minimization with
Global Linear Convergence Rate [0.0]
反復重み付き最小広場(IRLS)は非滑らかな最適化のための重要なアルゴリズム群である。
我々は、$ell_$-minimization に対する IRLS が、グローバルな線形レートを持つスパース解に収束することを証明する。
論文 参考訳(メタデータ) (2020-12-22T18:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。