論文の概要: Markov Chain Concentration with an Application in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.02926v1
- Date: Sat, 7 Jan 2023 19:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:56:14.368716
- Title: Markov Chain Concentration with an Application in Reinforcement Learning
- Title(参考訳): 強化学習におけるマルコフ連鎖濃度の応用
- Authors: Debangshu Banerjee
- Abstract要約: これらの確率変数に対して任意の Lipshitz $f$ が亜ガウス的であることを示すため、Martingale 法を用いる。
強化学習におけるランダムなプロセスの超過の集中から、よく知られたテクニックを結論付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given $X_1,\cdot ,X_N$ random variables whose joint distribution is given as
$\mu$ we will use the Martingale Method to show any Lipshitz Function $f$ over
these random variables is subgaussian. The Variance parameter however can have
a simple expression under certain conditions. For example under the assumption
that the random variables follow a Markov Chain and that the function is
Lipschitz under a Weighted Hamming Metric. We shall conclude with certain well
known techniques from concentration of suprema of random processes with
applications in Reinforcement Learning
- Abstract(参考訳): x_1,\cdot ,x_n$ 確率変数のジョイント分布が $\mu$ として与えられると、これらの確率変数に対して任意のリプシッツ関数 $f$ を示すのに martingale 法を使う。
しかし、変数パラメータは特定の条件下で単純な式を持つことができる。
例えば、確率変数がマルコフ連鎖に従うという仮定の下で、関数は重み付きハミング計量の下でリプシッツである。
強化学習における無作為過程のスープレマの集中化から, 一定の知名度の高い手法で結論づける。
関連論文リスト
- Stochastic Weakly Convex Optimization Beyond Lipschitz Continuity [5.866816093792934]
次数法を含む幅広い連続性アルゴリズムが, 一定の故障率で$mathO収束率を保っていることを示す。
リプシッツパラメータは、$|x|$の一般的な成長関数によって境界付けられたり、独立したランダムサンプルを通して局所的に推定されたりする。
論文 参考訳(メタデータ) (2024-01-25T06:06:31Z) - Characteristic Function of the Tsallis $q$-Gaussian and Its Applications
in Measurement and Metrology [0.0]
ツァリス$q$-ガウス分布は標準ガウス分布の強力な一般化である。
本稿では,独立な$q$-ガウス確率変数の線形結合の特性について述べる。
これは不確実性解析のためのモンテカルロ法に代わる計算手順を提供する。
論文 参考訳(メタデータ) (2023-03-15T13:42:35Z) - Adaptive Stochastic Variance Reduction for Non-convex Finite-Sum
Minimization [52.25843977506935]
有限サム構造をもつ$L$-smooth, non-deuction関数に対して, AdaSpider と呼ばれる適応分散法を提案する。
そうすることで、$tildeOleft + st/epsilonコールで$epsilon-stationaryポイントを計算することができます。
論文 参考訳(メタデータ) (2022-11-03T14:41:46Z) - Metric-Fair Classifier Derandomization [6.269732593554894]
機械学習における分類器のデランドマイズ問題について検討する。
事前のデランドマイズ法は, ほぼ最大値の不等式であることを示す。
我々はこれらの2つの間の魅力的なトレードオフを提供するデランドマイズ手順を考案する。
論文 参考訳(メタデータ) (2022-06-15T21:36:57Z) - Convex regularization in statistical inverse learning problems [1.7778609937758323]
一般凸と$p$-均一なペナルティ関数によるチコノフ正則化を考える。
我々は,Besov法則の厳格な罰則を導出し,X線トモグラフィーの文脈における観測値との対応性を数値的に示す。
論文 参考訳(メタデータ) (2021-02-18T18:12:08Z) - Concentration of measure and generalized product of random vectors with
an application to Hanson-Wright-like inequalities [45.24358490877106]
この記事では、各変数上の$phi$の変動が他の変数のノルム(あるいは半ノルム)の積に依存する関数の濃度$phi(Z_1,ldots, Z_m)$の式を提供する。
この結果の重要性は、ハンソン・ライト濃度の不等式の様々な一般化と、確率行列 $XDXT$ とその分解剤 $Q = の研究によって説明される。
論文 参考訳(メタデータ) (2021-02-16T08:36:28Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - A diffusion approach to Stein's method on Riemannian manifolds [65.36007959755302]
我々は、ターゲット不変測度を持つ$mathbf M$上の拡散の生成元と、その特徴付けStein演算子との関係を利用する。
我々は、スタイン方程式とその微分に解を束縛するスタイン因子を導出する。
我々は、$mathbf M$ が平坦多様体であるとき、$mathbb Rm$ の有界が有効であることを暗示する。
論文 参考訳(メタデータ) (2020-03-25T17:03:58Z) - Neural Bayes: A Generic Parameterization Method for Unsupervised
Representation Learning [175.34232468746245]
本稿ではニューラルベイズと呼ばれるパラメータ化手法を提案する。
これは一般に計算が難しい統計量の計算を可能にする。
このパラメータ化のための2つの独立したユースケースを示す。
論文 参考訳(メタデータ) (2020-02-20T22:28:53Z) - Algebraic and Analytic Approaches for Parameter Learning in Mixture
Models [66.96778152993858]
1次元の混合モデルにおけるパラメータ学習のための2つの異なるアプローチを提案する。
これらの分布のいくつかについては、パラメータ推定の最初の保証を示す。
論文 参考訳(メタデータ) (2020-01-19T05:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。