論文の概要: The surprising efficiency of temporal difference learning for rare event prediction
- arxiv url: http://arxiv.org/abs/2405.17638v2
- Date: Sun, 10 Nov 2024 17:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:15.910819
- Title: The surprising efficiency of temporal difference learning for rare event prediction
- Title(参考訳): 事象予測のための時間差学習の驚くべき効率
- Authors: Xiaoou Cheng, Jonathan Weare,
- Abstract要約: 我々は,強化学習における政策評価のための時間差(TD)学習,あるいはモンテカルロ(MC)推定器を用いて,時間差(TD)学習の効率を定量化する。
LSTD は MC よりも高い効率で相対精度が得られることを示す。
LSTDは、希少事象の時間スケールとMC推定器の相対精度の両方が、状態数で指数関数的に大きい場合でも、相対精度の一定レベルを維持する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We quantify the efficiency of temporal difference (TD) learning over the direct, or Monte Carlo (MC), estimator for policy evaluation in reinforcement learning, with an emphasis on estimation of quantities related to rare events. Policy evaluation is complicated in the rare event setting by the long timescale of the event and by the need for \emph{relative accuracy} in estimates of very small values. Specifically, we focus on least-squares TD (LSTD) prediction for finite state Markov chains, and show that LSTD can achieve relative accuracy far more efficiently than MC. We prove a central limit theorem for the LSTD estimator and upper bound the \emph{relative asymptotic variance} by simple quantities characterizing the connectivity of states relative to the transition probabilities between them. Using this bound, we show that, even when both the timescale of the rare event and the relative accuracy of the MC estimator are exponentially large in the number of states, LSTD maintains a fixed level of relative accuracy with a total number of observed transitions of the Markov chain that is only \emph{polynomially} large in the number of states.
- Abstract(参考訳): 我々は, 直接的学習における時間差(TD)学習の効率, あるいは強化学習における政策評価の指標であるモンテカルロ(MC)を定量化し, 希少事象に関連する量の推定に重点を置いている。
政策評価は、イベントの長い時間スケールと非常に小さな値の見積もりにおける'emph{relative accuracy'の必要性によって、まれなイベントセッティングにおいて複雑である。
具体的には,有限状態マルコフ連鎖に対する最小二乗TD(LSTD)予測に着目し,LSTDがMCよりもはるかに効率的に相対精度を達成可能であることを示す。
我々は、LSTD推定器の中央極限定理を証明し、それらの間の遷移確率に対する状態の接続性を特徴づける単純な量で \emph{relative asymptotic variance} を上限とする。
この境界を用いて、レア事象の時間スケールとMC推定器の相対精度が指数関数的に多くの状態において大きい場合でも、LSTDはマルコフ連鎖の観測された遷移の総数と相対精度の固定レベルを維持する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Score Matching-based Pseudolikelihood Estimation of Neural Marked
Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。
具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。
提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文 参考訳(メタデータ) (2023-10-25T02:37:51Z) - On Double Descent in Reinforcement Learning with LSTD and Random
Features [1.5873758872998507]
時間差分法(TD)アルゴリズムは深層強化学習(RL)において広く用いられている
ネットワークサイズと$l$-regularizationが性能に与える影響を理論的に分析する。
本研究では,2重降下現象,すなわちパラメータ/状態比の急激な低下を観察する。
論文 参考訳(メタデータ) (2023-10-09T08:33:22Z) - On the Statistical Benefits of Temporal Difference Learning [6.408072565019087]
アクションのデータセットと結果の長期的な報酬が与えられた場合、直接推定アプローチは値関数に適合する。
直感的な逆軌道プーリング係数は, 平均二乗誤差の減少率を完全に特徴付けることを示す。
2つの状態における値対号差の推定が劇的に改善できることを実証する。
論文 参考訳(メタデータ) (2023-01-30T21:02:25Z) - An Anomaly Detection Method for Satellites Using Monte Carlo Dropout [7.848121055546167]
衛星テレメトリ時系列における不確実性を把握するために,モンテカルロ(MC)ドロップアウト法に基づくBNNのトラクタブル近似を提案する。
提案した時系列ADアプローチは,予測精度とADの両面から既存手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-27T21:12:26Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Infinity Learning: Learning Markov Chains from Aggregate Steady-State
Observations [13.973232545822247]
本研究では, 連続時間マルコフ連鎖(CTMC)シーケンスモデルを, シーケンスの例を伴わずに学習する作業について考察する。
定常状態に必要な無限の和を避けるためにランダムに停止した推定器を用いる勾配降下法であるinfty$-SGDを提案する。
実世界のテストベッドと合成実験に$infty$-SGDを適用し、その精度、定常状態分布を観測されていない状態に外挿する能力を示す。
論文 参考訳(メタデータ) (2020-02-11T03:29:13Z) - Targeted stochastic gradient Markov chain Monte Carlo for hidden Markov models with rare latent states [48.705095800341944]
隠れマルコフモデルのためのマルコフ連鎖モンテカルロ (MCMC) アルゴリズムは、しばしば前向きのサンプリング器に依存する。
これにより、時系列の長さが増加するにつれて計算が遅くなり、サブサンプリングベースのアプローチの開発が動機となる。
本稿では,パラメータの勾配を計算する際に,希少な潜伏状態に対応するオーバーサンプリング観測を対象とするサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2018-10-31T17:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。