論文の概要: On the Statistical Benefits of Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2301.13289v3
- Date: Wed, 14 Feb 2024 17:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 20:25:17.575901
- Title: On the Statistical Benefits of Temporal Difference Learning
- Title(参考訳): 時間差学習の統計的利点について
- Authors: David Cheikhi and Daniel Russo
- Abstract要約: アクションのデータセットと結果の長期的な報酬が与えられた場合、直接推定アプローチは値関数に適合する。
直感的な逆軌道プーリング係数は, 平均二乗誤差の減少率を完全に特徴付けることを示す。
2つの状態における値対号差の推定が劇的に改善できることを実証する。
- 参考スコア(独自算出の注目度): 6.408072565019087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a dataset on actions and resulting long-term rewards, a direct
estimation approach fits value functions that minimize prediction error on the
training data. Temporal difference learning (TD) methods instead fit value
functions by minimizing the degree of temporal inconsistency between estimates
made at successive time-steps. Focusing on finite state Markov chains, we
provide a crisp asymptotic theory of the statistical advantages of this
approach. First, we show that an intuitive inverse trajectory pooling
coefficient completely characterizes the percent reduction in mean-squared
error of value estimates. Depending on problem structure, the reduction could
be enormous or nonexistent. Next, we prove that there can be dramatic
improvements in estimates of the difference in value-to-go for two states: TD's
errors are bounded in terms of a novel measure - the problem's trajectory
crossing time - which can be much smaller than the problem's time horizon.
- Abstract(参考訳): アクションに関するデータセットと結果として生じる長期的な報酬が与えられた場合、直接推定アプローチは、トレーニングデータの予測誤差を最小化する値関数に適合する。
時間差学習(TD)法は、連続した時間ステップにおける推定値の時間的矛盾を最小化することにより、値関数に適合する。
有限状態マルコフ連鎖に焦点をあてて、このアプローチの統計的利点の鮮明な漸近理論を提供する。
まず,直観的な逆軌道プーリング係数が,推定値の平均二乗誤差のパーセント減少を完全に特徴付けることを示す。
問題構造によっては、削減は巨大または存在しない可能性がある。
次に、tdの誤差は、新しい尺度(問題の軌道横断時間)の観点で境界化されており、問題の時間軸よりもずっと小さい可能性がある。
関連論文リスト
- The surprising efficiency of temporal difference learning for rare event prediction [0.0]
我々は,強化学習における政策評価のための時間差(TD)学習,あるいはモンテカルロ(MC)推定器を用いて,時間差(TD)学習の効率を定量化する。
LSTD は MC よりも高い効率で相対精度が得られることを示す。
LSTDは、希少事象の時間スケールとMC推定器の相対精度の両方が、状態数で指数関数的に大きい場合でも、相対精度の一定レベルを維持する。
論文 参考訳(メタデータ) (2024-05-27T20:18:20Z) - Loss Shaping Constraints for Long-Term Time Series Forecasting [79.3533114027664]
本稿では,長期時系列予測のための制約付き学習手法を提案する。
提案手法は, 予測ウィンドウ上でエラーを発生させながら, 時系列ベンチマークにおける競合平均性能を示すことを示すための, 実用的なプリマル・デュアルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:20:44Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Semiparametric Efficient Inference in Adaptive Experiments [29.43493007296859]
本研究では, 治療や管理に対する課題の割り当てを規定する政策が, 時間とともに変化しうる連続的な実験において, 平均治療効果の効率的な推定の問題点を考察する。
まず、Adaptive Augmented Inverse-Probability Weighted estimator に対する中心極限定理について述べる。
次に、従来の手法よりもかなり厳密な確率性および漸近的信頼シーケンスの両方を導出した逐次推論設定を検討する。
論文 参考訳(メタデータ) (2023-11-30T06:25:06Z) - Better Batch for Deep Probabilistic Time Series Forecasting [15.31488551912888]
本稿では,確率的予測精度を高めるために,誤り自己相関を取り入れた新しいトレーニング手法を提案する。
本手法は,モデルトレーニングのためのD$連続時系列セグメントのコレクションとしてミニバッチを構築する。
各ミニバッチ上で時間変化の共分散行列を明示的に学習し、隣接する時間ステップ間の誤差相関を符号化する。
論文 参考訳(メタデータ) (2023-05-26T15:36:59Z) - Policy evaluation from a single path: Multi-step methods, mixing and
mis-specification [45.88067550131531]
無限水平$gamma$-discounted Markov rewardプロセスの値関数の非パラメトリック推定について検討した。
カーネルベースの多段階時間差推定の一般的なファミリーに対して、漸近的でない保証を提供する。
論文 参考訳(メタデータ) (2022-11-07T23:15:25Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Taming the Long Tail of Deep Probabilistic Forecasting [16.136753801449263]
確率予測における最先端の深層学習手法の性能の長い尾の挙動を同定する。
本稿では,2つのモーメント・ベース・テールネス測定概念について述べる。
時系列や時間軌道を含む実世界の複数のデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-27T18:23:41Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。