論文の概要: Concentration of Cumulative Reward in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2411.18551v1
- Date: Wed, 27 Nov 2024 17:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:44.961832
- Title: Concentration of Cumulative Reward in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における累積リワード濃度
- Authors: Borna Sayedana, Peter E. Caines, Aditya Mahajan,
- Abstract要約: マルコフ決定過程(MDP)における報酬集中を特徴付ける統一的アプローチを導入する。
結果は、大数の法則、中心極限定理、反復の法則を含む。
文献で提案する学習方針に対する後悔の2つの定義が,その比率に等価であることを示す。
- 参考スコア(独自算出の注目度): 0.9899763598214121
- License:
- Abstract: In this paper, we investigate the concentration properties of cumulative rewards in Markov Decision Processes (MDPs), focusing on both asymptotic and non-asymptotic settings. We introduce a unified approach to characterize reward concentration in MDPs, covering both infinite-horizon settings (i.e., average and discounted reward frameworks) and finite-horizon setting. Our asymptotic results include the law of large numbers, the central limit theorem, and the law of iterated logarithms, while our non-asymptotic bounds include Azuma-Hoeffding-type inequalities and a non-asymptotic version of the law of iterated logarithms. Additionally, we explore two key implications of our results. First, we analyze the sample path behavior of the difference in rewards between any two stationary policies. Second, we show that two alternative definitions of regret for learning policies proposed in the literature are rate-equivalent. Our proof techniques rely on a novel martingale decomposition of cumulative rewards, properties of the solution to the policy evaluation fixed-point equation, and both asymptotic and non-asymptotic concentration results for martingale difference sequences.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)における累積報酬の濃度特性について検討し,漸近的条件と非漸近的条件の両方に着目した。
MDPにおける報酬集中を特徴付ける統一的なアプローチを導入し、無限水平設定(平均および割引報酬の枠組み)と有限水平設定の両方をカバーする。
我々の漸近的結果は、大数の法則、中心極限定理、反復対数法則を含むが、我々の非漸近的境界には、吾妻-ホーフディング型不等式と反復対数の法則の非漸近的バージョンが含まれる。
さらに、この結果の2つの重要な意味について検討する。
まず,2つの定常政策間の報酬差のサンプルパス挙動を解析する。
第二に、文献で提案される学習方針に対する後悔の2つの代替的定義が、レート等価であることを示す。
提案手法は, 累積報酬の新たな分解, 政策評価の不動点方程式に対する解の特性, およびマーチンゲール差分列に対する漸近的および非漸近的濃度結果に依存する。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Convergence and concentration properties of constant step-size SGD
through Markov chains [0.0]
定常段差勾配勾配(SGD)を用いた滑らかで強凸な目標の最適化について検討する。
緩やかに制御された分散を伴う不偏勾配推定に対して、反復は全変動距離の不変分布に収束することを示す。
全ての結果は無症状であり、その結果はいくつかのアプリケーションを通して議論されている。
論文 参考訳(メタデータ) (2023-06-20T12:36:28Z) - First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。
提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。
凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文 参考訳(メタデータ) (2023-05-25T11:11:31Z) - Kinetic Langevin MCMC Sampling Without Gradient Lipschitz Continuity --
the Strongly Convex Case [0.0]
目的がグローバルリプシッツであると仮定することなく,ハミルトン条件下での対数凹面分布からのサンプリングを検討する。
本稿では,多角勾配(テード)オイラースキームに基づく2つのアルゴリズムを提案し,各アルゴリズムのプロセスの法則と対象測度との間の非漸近的な2-ワッサーシュタイン距離を求める。
論文 参考訳(メタデータ) (2023-01-19T12:32:41Z) - Coefficient-based Regularized Distribution Regression [4.21768682940933]
我々は、確率測度から実数値応答への回帰を目的とした係数に基づく正規化分布回帰を、Hilbert空間(RKHS)上で考える。
回帰関数の正則範囲が異なるアルゴリズムの漸近挙動を包括的に研究した。
最適速度は、いくつかの穏やかな条件下で得られるが、これは1段のサンプル化された最小値の最適速度と一致する。
論文 参考訳(メタデータ) (2022-08-26T03:46:14Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Three rates of convergence or separation via U-statistics in a dependent
framework [5.929956715430167]
我々はこの理論的なブレークスルーを、3つの異なる研究分野における現在の知識の状態を推し進めることで実行した。
まず、MCMC法によるトレースクラス積分作用素のスペクトル推定のための新しい指数関数不等式を確立する。
さらに、ペアワイズ損失関数とマルコフ連鎖サンプルを扱うオンラインアルゴリズムの一般化性能について検討する。
論文 参考訳(メタデータ) (2021-06-24T07:10:36Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。