論文の概要: Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding
- arxiv url: http://arxiv.org/abs/2304.03907v4
- Date: Fri, 15 Nov 2024 20:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:01.740188
- Title: Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding
- Title(参考訳): 有限次元スペクトル動的埋め込みによる確率非線形制御
- Authors: Zhaolin Ren, Tongzheng Ren, Haitong Ma, Na Li, Bo Dai,
- Abstract要約: 本稿では,非線形系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。
我々は、状態-作用値関数を線形に表現するために無限次元の特徴を使い、実用的な実装のために有限次元のトランケーション近似を利用する。
- 参考スコア(独自算出の注目度): 21.38845517949153
- License:
- Abstract: This paper presents an approach, Spectral Dynamics Embedding Control (SDEC), to optimal control for nonlinear stochastic systems. This method leverages an infinite-dimensional feature to linearly represent the state-action value function and exploits finite-dimensional truncation approximation for practical implementation. To characterize the effectiveness of these finite dimensional approximations, we provide an in-depth theoretical analysis to characterize the approximation error induced by the finite-dimension truncation and statistical error induced by finite-sample approximation in both policy evaluation and policy optimization. Our analysis includes two prominent kernel approximation methods: truncations onto random features and Nystrom features. We also empirically test the algorithm and compare the performance with Koopman-based, iLQR, and energy-based methods on a few benchmark problems.
- Abstract(参考訳): 本稿では,非線形確率系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。
この方法は無限次元の特徴を利用して状態-作用値関数を線形に表現し、実用的な実装のために有限次元のトランケーション近似を利用する。
これらの有限次元近似の有効性を特徴づけるために, 有限次元トランケーションによる近似誤差と, 有限サンプル近似による統計的誤差を, 政策評価と政策最適化の両方で特徴づける詳細な理論的解析を行う。
我々の分析には、2つの顕著なカーネル近似法が含まれている。
また,このアルゴリズムを実験的に検証し,いくつかのベンチマーク問題に対するクープマン法,iLQR法,エネルギー法との比較を行った。
関連論文リスト
- WENDy for Nonlinear-in-Parameters ODEs [1.9573380763700712]
WEN(Wak-form Estimation of Non-linear Dynamics)は、非線形インである通常の微分方程式の系に対応するために拡張される。
提案手法の実用的メリットを実証するために,一連のベンチマークシステムに結果を提示する。
論文 参考訳(メタデータ) (2025-02-13T01:40:21Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - A Structure-Preserving Kernel Method for Learning Hamiltonian Systems [3.594638299627404]
構造保存されたカーネルリッジ回帰法は、潜在的に高次元かつ非線形なハミルトン関数の回復を可能にする。
本稿では,勾配の線形関数を含む損失関数が要求される問題に対して,カーネル回帰法を拡張した。
固定正則化パラメータと適応正則化パラメータを用いて収束率を提供する完全誤差解析を行う。
論文 参考訳(メタデータ) (2024-03-15T07:20:21Z) - Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - Auxiliary Functions as Koopman Observables: Data-Driven Analysis of
Dynamical Systems via Polynomial Optimization [0.0]
本稿では,明示的なモデル発見を必要としないフレキシブルなデータ駆動型システム解析手法を提案する。
この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。
論文 参考訳(メタデータ) (2023-03-02T18:44:18Z) - Off-policy estimation of linear functionals: Non-asymptotic theory for
semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。
このような手順の平均二乗誤差に対して非漸近上界を証明した。
非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文 参考訳(メタデータ) (2022-09-26T23:50:55Z) - Whiplash Gradient Descent Dynamics [2.0508733018954843]
凸関数に対するWhiplash系に対するシンプレクティック収束解析を導入する。
本研究では,アルゴリズムの性能を様々なコストで検討し,収束率を解析するための実践的方法論を提供する。
論文 参考訳(メタデータ) (2022-03-04T05:47:26Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。