Fugu-MT 論文翻訳(概要): On a Variance Reduction Correction of the Temporal Difference for Policy Evaluation in the Stochastic Continuous Setting

論文の概要: On a Variance Reduction Correction of the Temporal Difference for Policy Evaluation in the Stochastic Continuous Setting

arxiv url: http://arxiv.org/abs/2202.07960v1
Date: Wed, 16 Feb 2022 10:10:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-17 15:03:21.360555
Title: On a Variance Reduction Correction of the Temporal Difference for Policy Evaluation in the Stochastic Continuous Setting
Title（参考訳）: 確率的連続設定における政策評価のための時間差の分散低減補正について
Authors: Ziad Kobeissi (SIERRA), Francis Bach (SIERRA, DI-ENS, PSL)
Abstract要約: 時間差に基づく標準学習アルゴリズムは、時間離散化がゼロになる傾向にある場合に失敗する。本稿では、時間差の分散還元補正を提案し、時間ステップの消失に対して安定な新しい学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper deals with solving continuous time, state and action optimization problems in stochastic settings, using reinforcement learning algorithms, and considers the policy evaluation process. We prove that standard learning algorithms based on the discretized temporal difference are doomed to fail when the time discretization tends to zero, because of the stochastic part. We propose a variance-reduction correction of the temporal difference, leading to new learning algorithms that are stable with respect to vanishing time steps. This allows us to give theoretical guarantees of convergence of our algorithms to the solutions of continuous stochastic optimization problems.
Abstract（参考訳）: 本稿では,確率的条件下での連続時間,状態,動作の最適化問題を,強化学習アルゴリズムを用いて解決し,政策評価プロセスを検討する。離散化時間差に基づく標準学習アルゴリズムは、確率的な部分のため、時間離散化がゼロになる傾向にある場合に失敗する。本稿では,時間差の分散還元補正を提案し,時間ステップの消失に対して安定な新しい学習アルゴリズムを提案する。これにより、連続確率最適化問題の解にアルゴリズムの収束の理論的保証を与えることができる。

関連論文リスト

Uniform-in-time convergence bounds for Persistent Contrastive Divergence Algorithms [0.29494468099506904]
非正規化密度の最大最大値推定(MLE)のための持続的コントラスト分散(PCD)の連続時間定式化を提案する。我々は,PCDとモデルパラメータのMLE解との誤差に対して,明示的な境界を導出することができる。
論文参考訳（メタデータ） (2025-10-02T12:12:33Z)
Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文参考訳（メタデータ） (2024-11-04T11:09:58Z)
A Training-Free Conditional Diffusion Model for Learning Stochastic Dynamical Systems [10.820654486318336]
本研究では,未知の微分方程式(SDE)をデータを用いて学習するための学習自由条件拡散モデルを提案する。提案手法はSDEのモデリングにおける計算効率と精度の重要な課題に対処する。学習されたモデルは、未知のシステムの短期的および長期的両方の挙動を予測する上で、大幅な改善を示す。
論文参考訳（メタデータ） (2024-10-04T03:07:36Z)
Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文参考訳（メタデータ） (2022-11-30T05:33:29Z)
Semi-supervised Learning of Partial Differential Operators and Dynamical Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文参考訳（メタデータ） (2022-07-28T19:59:14Z)
Continuous-Time Modeling of Counterfactual Outcomes Using Neural Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文参考訳（メタデータ） (2022-06-16T17:15:15Z)
The Connection between Discrete- and Continuous-Time Descriptions of Gaussian Continuous Processes [60.35125735474386]
我々は、一貫した推定子をもたらす離散化が粗粒化下での不変性を持つことを示す。この結果は、導関数再構成のための微分スキームと局所時間推論アプローチの組み合わせが、2次または高次微分方程式の時系列解析に役立たない理由を説明する。
論文参考訳（メタデータ） (2021-01-16T17:11:02Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Identifying Latent Stochastic Differential Equations [29.103393300261587]
本研究では,高次元時系列データから潜時微分方程式(SDE)を学習する手法を提案する。提案手法は,自己教師付き学習手法を用いて,環境空間から潜時空間へのマッピングと,基礎となるSDE係数を学習する。提案手法の検証には,SDEの基盤となる複数のビデオ処理タスク,および実世界のデータセットを用いて行う。
論文参考訳（メタデータ） (2020-07-12T19:46:31Z)
Stochastic Differential Equations with Variational Wishart Diffusions [18.590352916158093]
回帰タスクと連続時間力学モデリングの両方に対して微分方程式を推論する非パラメトリックな方法を提案する。この研究は微分方程式の一部(拡散とも呼ばれる)に重点を置いており、ウィッシュアート過程を用いてモデル化している。
論文参考訳（メタデータ） (2020-06-26T10:21:35Z)
Learning continuous-time PDEs from sparse data with graph neural networks [10.259254824702555]
本稿では、メッセージパッシンググラフニューラルネットワークにより制御方程式をパラメータ化した動的システムの連続時間差分モデルを提案する。モデルが非構造化グリッドで機能する能力、任意の時間ステップ、ノイズの多い観測を実演する。提案手法は,PDEと最先端予測性能の第一次・高次PDEを含む,既知の物理系に対する既存手法と比較する。
論文参考訳（メタデータ） (2020-06-16T07:15:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。