論文の概要: Policy Gradient Optimal Correlation Search for Variance Reduction in
Monte Carlo simulation and Maximum Optimal Transport
- arxiv url: http://arxiv.org/abs/2307.12703v2
- Date: Fri, 15 Sep 2023 15:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 17:55:06.389078
- Title: Policy Gradient Optimal Correlation Search for Variance Reduction in
Monte Carlo simulation and Maximum Optimal Transport
- Title(参考訳): モンテカルロシミュレーションと最大最適輸送における分散低減のためのポリシー勾配最適相関探索
- Authors: Pierre Bras, Gilles Pag\`es
- Abstract要約: 我々は、ある微分方程式の解として$f(X_T)$を推定し、$f$がテスト関数であるときに、分散還元のための新しいアルゴリズムを提案する。
新しい推定器は$(f(XT) + f(X2_T))/2$であり、ここでは$X1$と$X2$は$X2$と同じ限界法則を持つが、分散を減らすために経路的に相関している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new algorithm for variance reduction when estimating $f(X_T)$
where $X$ is the solution to some stochastic differential equation and $f$ is a
test function. The new estimator is $(f(X^1_T) + f(X^2_T))/2$, where $X^1$ and
$X^2$ have same marginal law as $X$ but are pathwise correlated so that to
reduce the variance. The optimal correlation function $\rho$ is approximated by
a deep neural network and is calibrated along the trajectories of $(X^1, X^2)$
by policy gradient and reinforcement learning techniques. Finding an optimal
coupling given marginal laws has links with maximum optimal transport.
- Abstract(参考訳): 我々は、ある確率微分方程式の解として$f(X_T)$を推定し、$f$をテスト関数として、分散還元のための新しいアルゴリズムを提案する。
新しい推定器は$(f(X^1_T) + f(X^2_T))/2$ であり、$X^1$ と $X^2$ は$X$ と同じ限界法則を持つが、相似的に相関して分散を減少させる。
最適相関関数$\rho$はディープニューラルネットワークによって近似され、ポリシー勾配と強化学習技術により$(X^1, X^2)$の軌道に沿って校正される。
限界法則が与えられた最適結合を見つけることは、最大最適移動と結びつく。
関連論文リスト
- Differential Private Stochastic Optimization with Heavy-tailed Data: Towards Optimal Rates [15.27596975662702]
重み付き勾配を用いたDP最適化の最適速度を達成するアルゴリズムについて検討する。
その結果,DP下での凸最適化の理論的限界が達成可能であることを示す。
論文 参考訳(メタデータ) (2024-08-19T11:07:05Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Optimal Gradient Sliding and its Application to Distributed Optimization
Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。
エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。
提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文 参考訳(メタデータ) (2022-05-30T14:28:02Z) - TURF: A Two-factor, Universal, Robust, Fast Distribution Learning
Algorithm [64.13217062232874]
最も強力で成功したモダリティの1つは、全ての分布を$ell$距離に近似し、基本的に最も近い$t$-piece次数-$d_$の少なくとも1倍大きい。
本稿では,この数値をほぼ最適に推定する手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T03:49:28Z) - Saddle Point Optimization with Approximate Minimization Oracle [8.680676599607125]
サドル点最適化に対する主要なアプローチである$min_xmax_y f(x, y)$は、GAN(Generative Adversarial Network)によって一般化される勾配に基づくアプローチである。
対照的に、最小化問題を解くオラクルのみに依存する代替手法を解析する。
我々のアプローチでは、近似解 $x'$ と $y'$ to $min_x'f(x', y)$ を与えられた点 $(x, y)$ に配置し、これらの近似解 $(x', y)$ に更新する。
論文 参考訳(メタデータ) (2021-03-29T23:03:24Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - Accelerating Optimization and Reinforcement Learning with
Quasi-Stochastic Approximation [2.294014185517203]
本稿では、収束理論を準確率近似に拡張することを目的とする。
強化学習のためのグラデーションフリー最適化とポリシー勾配アルゴリズムへの応用について説明する。
論文 参考訳(メタデータ) (2020-09-30T04:44:45Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。