論文の概要: Convergence of a robust deep FBSDE method for stochastic control
- arxiv url: http://arxiv.org/abs/2201.06854v1
- Date: Tue, 18 Jan 2022 10:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 19:00:45.282860
- Title: Convergence of a robust deep FBSDE method for stochastic control
- Title(参考訳): 確率制御のための頑健な深部FBSDE法の収束性
- Authors: Kristoffer Andersson, Adam Andersson, Cornelis W. Oosterlee
- Abstract要約: 本稿では,FBSDEを強く結合する深層学習に基づく数値スキームを提案する。
古典的深部BSDE法のFBSDEへの直接拡張は、単純な線形二乗制御問題では失敗することを示す数値的な例を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose a deep learning based numerical scheme for strongly
coupled FBSDE, stemming from stochastic control. It is a modification of the
deep BSDE method in which the initial value to the backward equation is not a
free parameter, and with a new loss function being the weighted sum of the cost
of the control problem, and a variance term which coincides with the means
square error in the terminal condition. We show by a numerical example that a
direct extension of the classical deep BSDE method to FBSDE, fails for a simple
linear-quadratic control problem, and motivate why the new method works. Under
regularity and boundedness assumptions on the exact controls of time continuous
and time discrete control problems we provide an error analysis for our method.
We show empirically that the method converges for three different problems, one
being the one that failed for a direct extension of the deep BSDE method.
- Abstract(参考訳): 本稿では,確率的制御を基本としたFBSDEの深層学習に基づく数値スキームを提案する。
これは、後向き方程式に対する初期値が自由パラメータではなく、制御問題のコストの重み付け和である新たな損失関数と、端末条件における平均二乗誤差と一致する分散項とを有する、深いBSDE法の修正である。
古典的深部bsde法のfbsdeへの直接拡張が単純な線形-四次制御問題に失敗することを数値的な例で示し,新しい手法が機能する理由を示唆する。
時間連続および時間離散制御問題の厳密な制御に関する正則性と有界性仮定の下で,本手法の誤差解析を行う。
提案手法は3つの異なる問題に収束し,その1つは深部BSDE法の直接拡張に失敗した問題である。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Deep Reinforcement Learning for Online Control of Stochastic Partial
Differential Equations [10.746602033809943]
強化学習問題として偏微分方程式を制御する問題を定式化する。
本研究では,高次元状態空間を持つSPDEシステムのオンライン制御のための学習に基づく分散制御手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:50Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Correct-by-construction reach-avoid control of partially observable
linear stochastic systems [7.912008109232803]
離散時間線形時間不変系のリーチエイド制御のための頑健なフィードバックコントローラを定式化する。
問題は、必要となる証明状態の抽象化問題を満たすコントローラを計算することである。
論文 参考訳(メタデータ) (2021-03-03T13:46:52Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。