Fugu-MT 論文翻訳(概要): Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding

論文の概要: Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding

arxiv url: http://arxiv.org/abs/2304.03907v2
Date: Tue, 12 Dec 2023 15:16:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 20:43:52.729479
Title: Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding
Title（参考訳）: 有限次元スペクトル動的埋め込みによる確率非線形制御
Authors: Tongzheng Ren, Zhaolin Ren, Na Li, Haitong Ma and Bo Dai
Abstract要約: 本稿では,非線形系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。我々は、状態-作用値関数を線形に表現するために無限次元の特徴を使い、実用的な実装のために有限次元のトランケーション近似を利用する。
参考スコア（独自算出の注目度）: 22.946517604055735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents an approach, Spectral Dynamics Embedding Control (SDEC), to optimal control for nonlinear stochastic systems. This method leverages an infinite-dimensional feature to linearly represent the state-action value function and exploits finite-dimensional truncation approximation for practical implementation. To characterize the effectiveness of these finite dimensional approximations, we provide an in-depth theoretical analysis to characterize the approximation error induced by the finite-dimension truncation and statistical error induced by finite-sample approximation in both policy evaluation and policy optimization. Our analysis includes two prominent kernel approximation methods: truncations onto random features and Nystrom features. We also empirically test the algorithm and compare the performance with Koopman-based, iLQR, and energy-based methods on a few benchmark problems.
Abstract（参考訳）: 本稿では,非線形確率系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。この方法は無限次元の特徴を利用して状態-作用値関数を線形に表現し、実用的な実装のために有限次元のトランケーション近似を利用する。これらの有限次元近似の有効性を特徴付けるために,有限次元切断による近似誤差と有限サンプル近似による統計誤差を,政策評価と政策最適化の両方において詳細に理論的に解析する。我々の分析には、2つの顕著なカーネル近似法が含まれている。また,このアルゴリズムを実験的に検証し,いくつかのベンチマーク問題に対するクープマン法,iLQR法,エネルギー法との比較を行った。

関連論文リスト

Self-Supervised Coarsening of Unstructured Grid with Automatic Differentiation [55.88862563823878]
本研究では,微分可能物理の概念に基づいて,非構造格子を階層化するアルゴリズムを提案する。多孔質媒質中のわずかに圧縮可能な流体流を制御した線形方程式と波動方程式の2つのPDE上でのアルゴリズムの性能を示す。その結果,検討したシナリオでは,関心点におけるモデル変数のダイナミクスを保ちながら,格子点数を最大10倍に削減した。
論文参考訳（メタデータ） (2025-07-24T11:02:13Z)
WENDy for Nonlinear-in-Parameters ODEs [1.9573380763700712]
WEN(Wak-form Estimation of Non-linear Dynamics)は、非線形インである通常の微分方程式の系に対応するために拡張される。提案手法の実用的メリットを実証するために,一連のベンチマークシステムに結果を提示する。
論文参考訳（メタデータ） (2025-02-13T01:40:21Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文参考訳（メタデータ） (2024-07-18T09:17:47Z)
A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文参考訳（メタデータ） (2024-05-24T21:09:19Z)
A Structure-Preserving Kernel Method for Learning Hamiltonian Systems [3.594638299627404]
構造保存されたカーネルリッジ回帰法は、潜在的に高次元かつ非線形なハミルトン関数の回復を可能にする。本稿では,勾配の線形関数を含む損失関数が要求される問題に対して,カーネル回帰法を拡張した。固定正則化パラメータと適応正則化パラメータを用いて収束率を提供する完全誤差解析を行う。
論文参考訳（メタデータ） (2024-03-15T07:20:21Z)
Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文参考訳（メタデータ） (2024-03-14T17:55:10Z)
Inference on Optimal Dynamic Policies via Softmax Approximation [27.396891119011215]
最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
論文参考訳（メタデータ） (2023-03-08T07:42:47Z)
Auxiliary Functions as Koopman Observables: Data-Driven Analysis of Dynamical Systems via Polynomial Optimization [0.0]
本稿では,明示的なモデル発見を必要としないフレキシブルなデータ駆動型システム解析手法を提案する。この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。
論文参考訳（メタデータ） (2023-03-02T18:44:18Z)
Stochastic Mirror Descent for Large-Scale Sparse Recovery [13.500750042707407]
本稿では,2次近似の高次元スパースパラメータの統計的推定への応用について論じる。提案アルゴリズムは, 回帰器分布の弱い仮定の下で, 推定誤差の最適収束を実現する。
論文参考訳（メタデータ） (2022-10-23T23:23:23Z)
Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。このような手順の平均二乗誤差に対して非漸近上界を証明した。非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文参考訳（メタデータ） (2022-09-26T23:50:55Z)
Whiplash Gradient Descent Dynamics [2.0508733018954843]
凸関数に対するWhiplash系に対するシンプレクティック収束解析を導入する。本研究では,アルゴリズムの性能を様々なコストで検討し,収束率を解析するための実践的方法論を提供する。
論文参考訳（メタデータ） (2022-03-04T05:47:26Z)
A Priori Denoising Strategies for Sparse Identification of Nonlinear Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-01-29T23:31:25Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
Combining Gaussian processes and polynomial chaos expansions for stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文参考訳（メタデータ） (2021-03-09T14:25:08Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
A Dynamical Systems Approach for Convergence of the Bayesian EM Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文参考訳（メタデータ） (2020-06-23T01:34:18Z)
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文参考訳（メタデータ） (2020-03-16T17:15:28Z)
Convergence and sample complexity of gradient methods for the model-free linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文参考訳（メタデータ） (2019-12-26T16:56:59Z)
Non-linear reduced modeling of dynamical systems using kernel methods and low-rank approximation [5.935306543481018]
我々は,カーネルヒルベルト空間における線形近似に基づく非線形力学のデータ駆動還元モデリングのための新しい効率的なアルゴリズムを提案する。このアルゴリズムは、カーネルベースの計算を有利に活用しながら、低ランク制約最適化問題の閉形式解を利用する。
論文参考訳（メタデータ） (2017-10-30T13:06:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。