論文の概要: PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning
Method
- arxiv url: http://arxiv.org/abs/2110.06906v1
- Date: Wed, 13 Oct 2021 17:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 15:47:48.809784
- Title: PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning
Method
- Title(参考訳): PER-ETD:高能率強調時間差学習法
- Authors: Ziwei Guan, Tengyu Xu, Yingbin Liang
- Abstract要約: PEriodically Restarted-ETD(PEriodically Restarted-ETD)と呼ばれる新しいETD手法を提案する。
PER-ETD は ETD と同じ所望の固定点に収束するが, 指数的なサンプルの複雑性は向上する。
- 参考スコア(独自算出の注目度): 49.93717224277131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emphatic temporal difference (ETD) learning (Sutton et al., 2016) is a
successful method to conduct the off-policy value function evaluation with
function approximation. Although ETD has been shown to converge asymptotically
to a desirable value function, it is well-known that ETD often encounters a
large variance so that its sample complexity can increase exponentially fast
with the number of iterations. In this work, we propose a new ETD method,
called PER-ETD (i.e., PEriodically Restarted-ETD), which restarts and updates
the follow-on trace only for a finite period for each iteration of the
evaluation parameter. Further, PER-ETD features a design of the logarithmical
increase of the restart period with the number of iterations, which guarantees
the best trade-off between the variance and bias and keeps both vanishing
sublinearly. We show that PER-ETD converges to the same desirable fixed point
as ETD, but improves the exponential sample complexity of ETD to be
polynomials. Our experiments validate the superior performance of PER-ETD and
its advantage over ETD.
- Abstract(参考訳): emphatic temporal difference (etd) learning (sutton et al., 2016) は、関数近似を用いたオフポリシー値関数評価を成功させる手法である。
ETDは漸近的に望ましい値関数に収束することが示されているが、ETDがしばしば大きな分散に遭遇し、そのサンプルの複雑さが反復数で指数関数的に増加することが知られている。
本研究では,評価パラメータの反復毎に有限期間のみ追跡トレースを再開・更新する,per-etd(周期的再起動etd)と呼ばれる新しいetd法を提案する。
さらに、各etdは、再スタート期間の対数増加とイテレーション数の設計を特徴とし、分散とバイアスの最良のトレードオフを保証し、両者をサブリニアに消滅させる。
PER-ETD は ETD と同じ所望の固定点に収束するが,多項式となる ETD の指数的サンプル複雑性は向上する。
実験はetd毎の優れた性能とetdに対するアドバンテージを検証する。
関連論文リスト
- Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Efficient Learning of PDEs via Taylor Expansion and Sparse Decomposition
into Value and Fourier Domains [12.963163500336066]
限定された分解可能なPDEのクラスは、値領域にスパースな特徴を持っている。
ランダムプロジェクションによるPDEの学習を高速化するReelを提案する。
提案したReelがPDEモデルのより高速な学習につながるという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-09-13T22:48:30Z) - Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models
Using Pairwise-Distance Estimators [21.098866735156207]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。
サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。
我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文 参考訳(メタデータ) (2023-08-25T17:13:42Z) - Finite time analysis of temporal difference learning with linear
function approximation: Tail averaging and regularisation [44.27439128304058]
そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。
ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
論文 参考訳(メタデータ) (2022-10-12T04:37:54Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Simple and optimal methods for stochastic variational inequalities, II:
Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。
我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文 参考訳(メタデータ) (2020-11-15T04:05:22Z) - Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence
Analysis [27.679514676804057]
オフ・ポリシー・セッティングにおける2つの時間スケールTDCアルゴリズムの分散化手法を開発した。
実験により,提案した分散還元型TDCは,従来のTDCと分散還元型TDよりも収束誤差が小さいことを示した。
論文 参考訳(メタデータ) (2020-10-26T01:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。