論文の概要: Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic
Embedding
- arxiv url: http://arxiv.org/abs/2304.03907v1
- Date: Sat, 8 Apr 2023 04:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:01:33.089438
- Title: Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic
Embedding
- Title(参考訳): 有限次元スペクトル動的埋め込みによる確率非線形制御
- Authors: Tongzheng Ren, Zhaolin Ren, Na Li and Bo Dai
- Abstract要約: 有限次元特徴近似の非線形ダイナミクスを利用するトラクタブル非線形制御アルゴリズムを提案する。
また,このアルゴリズムを実験的に検証し,振り子揺らぎ問題に対するクープマン法とiLQR法との比較を行った。
- 参考スコア(独自算出の注目度): 67.0002891674643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal control is notoriously difficult for stochastic nonlinear systems.
Ren et al. introduced Spectral Dynamics Embedding for developing reinforcement
learning methods for controlling an unknown system. It uses an
infinite-dimensional feature to linearly represent the state-value function and
exploits finite-dimensional truncation approximation for practical
implementation. However, the finite-dimensional approximation properties in
control have not been investigated even when the model is known. In this paper,
we provide a tractable stochastic nonlinear control algorithm that exploits the
nonlinear dynamics upon the finite-dimensional feature approximation, Spectral
Dynamics Embedding Control (SDEC), with an in-depth theoretical analysis to
characterize the approximation error induced by the finite-dimension truncation
and statistical error induced by finite-sample approximation in both policy
evaluation and policy optimization. We also empirically test the algorithm and
compare the performance with Koopman-based methods and iLQR methods on the
pendulum swingup problem.
- Abstract(参考訳): 最適制御は確率非線形システムでは難しいことで悪名高い。
Renらが開発したSpectral Dynamics Embeddingは、未知のシステムを制御するための強化学習手法を開発するためのものだ。
無限次元の特徴を用いて状態値関数を線形に表現し、実用的な実装のために有限次元のトランケーション近似を利用する。
しかし、制御における有限次元近似特性はモデルが知られている場合でも研究されていない。
本稿では,有限次元特徴近似,スペクトル動力学埋め込み制御(sdec)の非線形ダイナミクスを応用し,有限次元切断による近似誤差と有限サンプル近似による統計誤差を,政策評価と政策最適化の両方において特徴量的に理論的に特徴付ける確率的非線形制御アルゴリズムを提案する。
また,このアルゴリズムを実験的に検証し,振り子揺らぎ問題に対するクープマン法とiLQR法との比較を行った。
関連論文リスト
- WENDy for Nonlinear-in-Parameters ODEs [1.9573380763700712]
WEN(Wak-form Estimation of Non-linear Dynamics)は、非線形インである通常の微分方程式の系に対応するために拡張される。
提案手法の実用的メリットを実証するために,一連のベンチマークシステムに結果を提示する。
論文 参考訳(メタデータ) (2025-02-13T01:40:21Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - A Structure-Preserving Kernel Method for Learning Hamiltonian Systems [3.594638299627404]
構造保存されたカーネルリッジ回帰法は、潜在的に高次元かつ非線形なハミルトン関数の回復を可能にする。
本稿では,勾配の線形関数を含む損失関数が要求される問題に対して,カーネル回帰法を拡張した。
固定正則化パラメータと適応正則化パラメータを用いて収束率を提供する完全誤差解析を行う。
論文 参考訳(メタデータ) (2024-03-15T07:20:21Z) - Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - Auxiliary Functions as Koopman Observables: Data-Driven Analysis of
Dynamical Systems via Polynomial Optimization [0.0]
本稿では,明示的なモデル発見を必要としないフレキシブルなデータ駆動型システム解析手法を提案する。
この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。
論文 参考訳(メタデータ) (2023-03-02T18:44:18Z) - Off-policy estimation of linear functionals: Non-asymptotic theory for
semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。
このような手順の平均二乗誤差に対して非漸近上界を証明した。
非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文 参考訳(メタデータ) (2022-09-26T23:50:55Z) - Whiplash Gradient Descent Dynamics [2.0508733018954843]
凸関数に対するWhiplash系に対するシンプレクティック収束解析を導入する。
本研究では,アルゴリズムの性能を様々なコストで検討し,収束率を解析するための実践的方法論を提供する。
論文 参考訳(メタデータ) (2022-03-04T05:47:26Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。