論文の概要: Rates of Convergence in Certain Native Spaces of Approximations used in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.07383v2
- Date: Mon, 18 Sep 2023 17:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 10:07:56.993359
- Title: Rates of Convergence in Certain Native Spaces of Approximations used in
Reinforcement Learning
- Title(参考訳): 強化学習における近似のある種のネイティブ空間における収束率
- Authors: Ali Bouland, Shengyuan Niu, Sai Tej Paruchuri, Andrew Kurdila, John
Burns, Eugenio Schuster
- Abstract要約: 本稿では、再生カーネルヒルベルト空間(RKHS)$H(Omega)$の集合に生じる値関数近似の収束率について研究する。
値関数近似における誤差の上限を、有限次元近似の空間に対して$Pwr_H,N$で導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper studies convergence rates for some value function approximations
that arise in a collection of reproducing kernel Hilbert spaces (RKHS)
$H(\Omega)$. By casting an optimal control problem in a specific class of
native spaces, strong rates of convergence are derived for the operator
equation that enables offline approximations that appear in policy iteration.
Explicit upper bounds on error in value function approximations are derived in
terms of power function $\Pwr_{H,N}$ for the space of finite dimensional
approximants $H_N$ in the native space $H(\Omega)$. These bounds are geometric
in nature and refine some well-known, now classical results concerning
convergence of approximations of value functions.
- Abstract(参考訳): 本稿では、再生カーネルヒルベルト空間(RKHS)$H(\Omega)$の集合に生じる値関数近似の収束率について研究する。
自然空間の特定のクラスに最適制御問題をキャストすることにより、ポリシー反復に現れるオフライン近似を可能にする演算子方程式に対して強い収束率が導出される。
値関数近似における誤差の明示的な上限は、ネイティブ空間 $h(\omega)$ における有限次元近似の空間に対するパワー関数 $\pwr_{h,n}$ によって導かれる。
これらの境界は自然界において幾何学的であり、値関数の近似の収束に関する古典的結果のいくつかを洗練している。
関連論文リスト
- Non-asymptotic convergence bounds for Sinkhorn iterates and their
gradients: a coupling approach [10.568851068989972]
本稿では,アルゴリズムの効率的な解法を実現するために,元のOT問題であるエントロピックOT問題の緩和に焦点をあてる。
この定式化はSchr"odinger Bridge問題としても知られ、特に最適制御(SOC)と結びつき、人気のあるシンクホーンアルゴリズムで解くことができる。
論文 参考訳(メタデータ) (2023-04-13T13:58:25Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Nearly Optimal Algorithms for Level Set Estimation [21.83736847203543]
線形包帯に対する最近の適応的実験設計手法と関連づけることで, レベルセット推定問題に対する新しいアプローチを提案する。
我々は、我々の境界がほぼ最適であることを示す。すなわち、我々の上限は、しきい値線形帯域に対して既存の下限と一致する。
論文 参考訳(メタデータ) (2021-11-02T17:45:02Z) - Submodular + Concave [53.208470310734825]
第一次最適化法が凹関数の最大目的値に収束できることはよく確立されている。
本研究では、滑らかな函数凸体(英語版)の行列式を$F(x) = G(x) +C(x)$で始める。
このクラスの函数は、保証がないような凹凸函数と連続DR-部分モジュラ函数の両方の拡張である。
論文 参考訳(メタデータ) (2021-06-09T01:59:55Z) - Error Estimates for the Variational Training of Neural Networks with
Boundary Penalty [0.0]
空間$H1(Omega)$上の二次エネルギーに対するリッツ法による誤差の推定値を確立する。
境界ペナルティ法で処理されるディリクレ境界値に対しては,特に注意が払われる。
論文 参考訳(メタデータ) (2021-03-01T13:55:59Z) - Optimal Approximation Rates and Metric Entropy of ReLU$^k$ and Cosine
Networks [0.0]
対応する浅層ニューラルネットワークによって効率的に近似できる関数の最大のバナッハ空間は、集合 $pmsigma(omegacdot x + b)$ の閉凸包のゲージによってノルムが与えられる空間であることを示す。
これらのゲージ空間の単位球の$L2$-metricエントロピーの精度を確立し、その結果、浅いReLU$k$ネットワークに対する最適近似速度を導出する。
論文 参考訳(メタデータ) (2021-01-29T02:29:48Z) - Nonparametric approximation of conditional expectation operators [0.3655021726150368]
最小の仮定の下で、$[Pf](x) := mathbbE[f(Y) mid X = x ]$ で定義される$L2$-operatorの近似について検討する。
我々は、再生されたカーネル空間上で作用するヒルベルト・シュミット作用素により、作用素ノルムにおいて$P$が任意に適切に近似できることを証明した。
論文 参考訳(メタデータ) (2020-12-23T19:06:12Z) - Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。
本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文 参考訳(メタデータ) (2020-12-22T12:59:30Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - The Convergence Indicator: Improved and completely characterized
parameter bounds for actual convergence of Particle Swarm Optimization [68.8204255655161]
我々は、粒子が最終的に単一点に収束するか、分岐するかを計算するのに使用できる新しい収束指標を導入する。
この収束指標を用いて、収束群につながるパラメータ領域を完全に特徴づける実際の境界を提供する。
論文 参考訳(メタデータ) (2020-06-06T19:08:05Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。