論文の概要: A random measure approach to reinforcement learning in continuous time
- arxiv url: http://arxiv.org/abs/2409.17200v1
- Date: Wed, 25 Sep 2024 14:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 16:40:36.762892
- Title: A random measure approach to reinforcement learning in continuous time
- Title(参考訳): 連続時間における強化学習に対するランダムな計測手法
- Authors: Christian Bender and Nguyen Tran Thuan
- Abstract要約: 連続時間強化学習におけるモデル探索のためのランダムな計測手法を提案する。
これらのランダム測度の構築はブラウン運動とポアソンランダム測度を利用する。
グリッドサンプリング限界SDEは、最近の連続RL文献の探索SDEとサンプルSDEを置き換えることができると論じる。
- 参考スコア(独自算出の注目度): 0.43512163406552007
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a random measure approach for modeling exploration, i.e., the
execution of measure-valued controls, in continuous-time reinforcement learning
(RL) with controlled diffusion and jumps. First, we consider the case when
sampling the randomized control in continuous time takes place on a
discrete-time grid and reformulate the resulting stochastic differential
equation (SDE) as an equation driven by suitable random measures. The
construction of these random measures makes use of the Brownian motion and the
Poisson random measure (which are the sources of noise in the original model
dynamics) as well as the additional random variables, which are sampled on the
grid for the control execution. Then, we prove a limit theorem for these random
measures as the mesh-size of the sampling grid goes to zero, which leads to the
grid-sampling limit SDE that is jointly driven by white noise random measures
and a Poisson random measure. We also argue that the grid-sampling limit SDE
can substitute the exploratory SDE and the sample SDE of the recent
continuous-time RL literature, i.e., it can be applied for the theoretical
analysis of exploratory control problems and for the derivation of learning
algorithms.
- Abstract(参考訳): 本研究では,連続時間強化学習(Retinuous-time reinforcement Learning, RL)における計測値制御の実行と拡散と跳躍をモデル化するためのランダムな計測手法を提案する。
まず、離散時間グリッド上でランダム化制御を連続的にサンプリングし、結果の確率微分方程式(SDE)を適切なランダム測度によって駆動される方程式として再構成する。
これらのランダム測度の構築は、ブラウン運動とポアソンランダム測度(元のモデル力学のノイズ源)と、制御実行のためにグリッド上にサンプリングされた追加のランダム変数を利用する。
そして,サンプリンググリッドのメッシュサイズが0となるにつれて,これらのランダム測度に対する極限定理を証明し,ホワイトノイズランダム測度とポアソンランダム測度を併用したグリッドサンプリング限界SDEを導出する。
また、グリッドサンプリング限界SDEは、最近の連続時間RL文献の探索SDEとサンプルSDE、すなわち探索制御問題の理論的解析や学習アルゴリズムの導出に応用できると主張している。
関連論文リスト
- Constrained Sampling with Primal-Dual Langevin Monte Carlo [15.634831573546041]
この研究は、正規化定数まで既知の確率分布からサンプリングする問題を考察する。
一般非線形関数の期待値によって定義された統計的制約の集合を満たす。
我々は,目標分布とサンプルを同時に制約する離散時間原始二元Langevin Monte Carloアルゴリズム(PD-LMC)を提唱した。
論文 参考訳(メタデータ) (2024-11-01T13:26:13Z) - Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Stable generative modeling using Schrödinger bridges [0.22499166814992438]
本稿では,Schr"odinger BridgesとLangevin dynamicsを組み合わせた生成モデルを提案する。
我々のフレームワークは自然に条件付きサンプルを生成し、ベイズ推論問題に拡張することができる。
論文 参考訳(メタデータ) (2024-01-09T06:15:45Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Noise-Free Sampling Algorithms via Regularized Wasserstein Proximals [3.4240632942024685]
ポテンシャル関数が支配する分布からサンプリングする問題を考察する。
本研究は, 決定論的な楽譜に基づくMCMC法を提案し, 粒子に対する決定論的進化をもたらす。
論文 参考訳(メタデータ) (2023-08-28T23:51:33Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Generative modeling for time series via Schr{\"o}dinger bridge [0.0]
本稿では,SB (Schr'dinger Bridge) に基づく時系列生成モデルを提案する。
これは、経路空間上の基準確率測度と、時系列の合同データ分布と整合した目標測度との間の最適輸送によるエントロピックから構成される。
論文 参考訳(メタデータ) (2023-04-11T09:45:06Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Deterministic Gibbs Sampling via Ordinary Differential Equations [77.42706423573573]
本稿では,自律的ODEとツールを用いた決定論的測度保存ダイナミクスの一般構築について述べる。
我々は、ハイブリッドモンテカルロや他の決定論的サンプルが、我々の理論の特別な場合としてどのように従うかを示す。
論文 参考訳(メタデータ) (2021-06-18T15:36:09Z) - Stochastic Normalizing Flows [52.92110730286403]
微分方程式(SDE)を用いた最大推定と変分推論のための正規化フロー(VI)を導入する。
粗い経路の理論を用いて、基礎となるブラウン運動は潜在変数として扱われ、近似され、神経SDEの効率的な訓練を可能にする。
これらのSDEは、与えられたデータセットの基盤となる分布からサンプリングする効率的なチェーンを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-02-21T20:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。