論文の概要: Impact of Computation in Integral Reinforcement Learning for
Continuous-Time Control
- arxiv url: http://arxiv.org/abs/2402.17375v1
- Date: Tue, 27 Feb 2024 10:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:52:59.233030
- Title: Impact of Computation in Integral Reinforcement Learning for
Continuous-Time Control
- Title(参考訳): 連続時間制御のための積分強化学習における計算の影響
- Authors: Wenhan Cao, Wei Pan
- Abstract要約: 計算法の選択(この場合、二次規則)が制御性能に大きな影響を及ぼすことを示す。
我々は、IntRLのポリシー反復とハミルトン・ヤコビ・ベルマン方程式に適用されたニュートンの方法とを平行に描いている。
IntRL の局所収束速度は、Prapezoidal rule と、Mat'ern kernel を持つベイズ二次函数を用いて、$O(N-2)$ および $O(N-b)$ となることを証明している。
- 参考スコア(独自算出の注目度): 5.126167270246931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integral reinforcement learning (IntRL) demands the precise computation of
the utility function's integral at its policy evaluation (PEV) stage. This is
achieved through quadrature rules, which are weighted sums of utility functions
evaluated from state samples obtained in discrete time. Our research reveals a
critical yet underexplored phenomenon: the choice of the computational method
-- in this case, the quadrature rule -- can significantly impact control
performance. This impact is traced back to the fact that computational errors
introduced in the PEV stage can affect the policy iteration's convergence
behavior, which in turn affects the learned controller. To elucidate how
computation impacts control, we draw a parallel between IntRL's policy
iteration and Newton's method applied to the Hamilton-Jacobi-Bellman equation.
In this light, computational error in PEV manifests as an extra error term in
each iteration of Newton's method, with its upper bound proportional to the
computational error. Further, we demonstrate that when the utility function
resides in a reproducing kernel Hilbert space (RKHS), the optimal quadrature is
achievable by employing Bayesian quadrature with the RKHS-inducing kernel
function. We prove that the local convergence rates for IntRL using the
trapezoidal rule and Bayesian quadrature with a Mat\'ern kernel to be
$O(N^{-2})$ and $O(N^{-b})$, where $N$ is the number of evenly-spaced samples
and $b$ is the Mat\'ern kernel's smoothness parameter. These theoretical
findings are finally validated by two canonical control tasks.
- Abstract(参考訳): 積分強化学習(IntRL)は、その政策評価(PEV)段階における実用関数の積分の正確な計算を要求する。
これは、離散時間で得られた状態サンプルから評価されたユーティリティ関数の重み付けされた和である。
計算手法の選択(この場合、二次規則)は制御性能に大きな影響を及ぼす可能性がある。
この影響は、PEV段階で導入された計算エラーがポリシーイテレーションの収束挙動に影響し、結果として学習したコントローラに影響を与えるという事実に遡ることができる。
計算が制御に与える影響を解明するために、ハミルトン・ヤコビ・ベルマン方程式に適用したIntRLのポリシー反復とニュートンの手法の並列性を描く。
この光において、PEVの計算誤差はニュートン法の各反復において余分な誤差項として表され、その上限は計算誤差に比例する。
さらに、実効関数が再生カーネルヒルベルト空間 (RKHS) に存在するとき、最適二次函数は、ベイズ二次函数とRKHS誘導カーネル関数を用いて達成可能であることを示す。
そこで、trapezoidal rule と bayesian quadrature を用いた intrl の局所収束率は、mat\'ern kernel が $o(n^{-2})$ と $o(n^{-b})$ となることを証明し、ここで $n$ は等間隔のサンプルの数、$b$ は mat\'ern kernel の滑らかさパラメータであることを示した。
これらの理論的な発見は、2つの標準制御タスクによって最終的に検証される。
関連論文リスト
- Linear quadratic control of nonlinear systems with Koopman operator
learning and the Nystr\"om method [15.747820715709937]
計算量を大幅に削減するために,ランダムな部分空間をどのように利用できるかを示す。
我々の主な技術的貢献は、Nystr"om近似の効果に関する理論的保証を導出することである。
論文 参考訳(メタデータ) (2024-03-05T09:28:40Z) - Demonstration-Regularized RL [39.96273388393764]
専門的な実証から,次数$widetildeO(mathrmPoly(S,A,H)/(varepsilon2 NmathrmE)$および$widetildeO(mathrmPoly(d,H)/(varepsilon2 NmathrmE)$の線形マルコフ決定過程における最適ポリシを同定した。
実演規則化手法が人間のフィードバックからの強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-26T10:54:47Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.45669299295436]
教師なしニューラルソルバのトレーニングのためのモンテカルロPDEソルバを提案する。
我々は、マクロ現象をランダム粒子のアンサンブルとみなすPDEの確率的表現を用いる。
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文 参考訳(メタデータ) (2023-02-10T08:05:19Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。