論文の概要: Temporal Difference Learning with Continuous Time and State in the
Stochastic Setting
- arxiv url: http://arxiv.org/abs/2202.07960v3
- Date: Wed, 7 Jun 2023 12:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 20:44:22.438029
- Title: Temporal Difference Learning with Continuous Time and State in the
Stochastic Setting
- Title(参考訳): 確率的設定における連続時間と状態の時間差学習
- Authors: Ziad Kobeissi (SIERRA), Francis Bach (SIERRA, DI-ENS, PSL)
- Abstract要約: 継続的政策評価の問題点を考察する。
これは、制御されていない連続時間ダイナミクスと報酬関数に関連付けられた値関数を観察を通して学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of continuous-time policy evaluation. This consists
in learning through observations the value function associated with an
uncontrolled continuous-time stochastic dynamic and a reward function. We
propose two original variants of the well-known TD(0) method using vanishing
time steps. One is model-free and the other is model-based. For both methods,
we prove theoretical convergence rates that we subsequently verify through
numerical simulations. Alternatively, those methods can be interpreted as novel
reinforcement learning approaches for approximating solutions of linear PDEs
(partial differential equations) or linear BSDEs (backward stochastic
differential equations).
- Abstract(参考訳): 継続的政策評価の問題点を考察する。
これは、制御されていない連続時間確率力学と報酬関数に関連する値関数の観察を通して学習する。
そこで本研究では,時間ステップを短縮したTD(0)法を2つのオリジナル変種として提案する。
1つはモデルフリー、もう1つはモデルベースである。
いずれの手法も理論収束率を証明し, 数値シミュレーションにより検証する。
あるいは、これらの手法は線形PDE(部分微分方程式)や線形BSDE(後方確率微分方程式)の近似解に対する新しい強化学習手法と解釈できる。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - A Training-Free Conditional Diffusion Model for Learning Stochastic Dynamical Systems [10.820654486318336]
本研究では,未知の微分方程式(SDE)をデータを用いて学習するための学習自由条件拡散モデルを提案する。
提案手法はSDEのモデリングにおける計算効率と精度の重要な課題に対処する。
学習されたモデルは、未知のシステムの短期的および長期的両方の挙動を予測する上で、大幅な改善を示す。
論文 参考訳(メタデータ) (2024-10-04T03:07:36Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - The Connection between Discrete- and Continuous-Time Descriptions of
Gaussian Continuous Processes [60.35125735474386]
我々は、一貫した推定子をもたらす離散化が粗粒化下での不変性を持つことを示す。
この結果は、導関数再構成のための微分スキームと局所時間推論アプローチの組み合わせが、2次または高次微分方程式の時系列解析に役立たない理由を説明する。
論文 参考訳(メタデータ) (2021-01-16T17:11:02Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Identifying Latent Stochastic Differential Equations [29.103393300261587]
本研究では,高次元時系列データから潜時微分方程式(SDE)を学習する手法を提案する。
提案手法は,自己教師付き学習手法を用いて,環境空間から潜時空間へのマッピングと,基礎となるSDE係数を学習する。
提案手法の検証には,SDEの基盤となる複数のビデオ処理タスク,および実世界のデータセットを用いて行う。
論文 参考訳(メタデータ) (2020-07-12T19:46:31Z) - Stochastic Differential Equations with Variational Wishart Diffusions [18.590352916158093]
回帰タスクと連続時間力学モデリングの両方に対して微分方程式を推論する非パラメトリックな方法を提案する。
この研究は微分方程式の一部(拡散とも呼ばれる)に重点を置いており、ウィッシュアート過程を用いてモデル化している。
論文 参考訳(メタデータ) (2020-06-26T10:21:35Z) - Learning continuous-time PDEs from sparse data with graph neural
networks [10.259254824702555]
本稿では、メッセージパッシンググラフニューラルネットワークにより制御方程式をパラメータ化した動的システムの連続時間差分モデルを提案する。
モデルが非構造化グリッドで機能する能力、任意の時間ステップ、ノイズの多い観測を実演する。
提案手法は,PDEと最先端予測性能の第一次・高次PDEを含む,既知の物理系に対する既存手法と比較する。
論文 参考訳(メタデータ) (2020-06-16T07:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。