論文の概要: The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation
- arxiv url: http://arxiv.org/abs/2305.18388v1
- Date: Sun, 28 May 2023 10:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:53:27.111400
- Title: The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation
- Title(参考訳): 価値推定のための分位時間微分学習の統計的効果
- Authors: Mark Rowland, Yunhao Tang, Clare Lyle, R\'emi Munos, Marc G.
Bellemare, Will Dabney
- Abstract要約: 我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
- 参考スコア(独自算出の注目度): 53.53493178394081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of temporal-difference-based policy evaluation in
reinforcement learning. In particular, we analyse the use of a distributional
reinforcement learning algorithm, quantile temporal-difference learning (QTD),
for this task. We reach the surprising conclusion that even if a practitioner
has no interest in the return distribution beyond the mean, QTD (which learns
predictions about the full distribution of returns) may offer performance
superior to approaches such as classical TD learning, which predict only the
mean return, even in the tabular setting.
- Abstract(参考訳): 強化学習における時間差に基づく政策評価の問題について検討する。
特に,この課題に対して,分散強化学習アルゴリズムである量子時間差分学習(QTD)を用いて分析を行う。
平均以上のリターン分布に興味がなくても、qtd(リターンの完全な分布について予測を学ぶ)は、表的な設定であっても平均リターンのみを予測する古典的td学習のようなアプローチよりも優れたパフォーマンスを提供する可能性があるという驚くべき結論に達した。
関連論文リスト
- Discerning Temporal Difference Learning [5.439020425819001]
時間差分学習(TD)は強化学習の基礎概念である
我々は、識別型TD学習(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:10Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Finite-Time Analysis of Temporal Difference Learning: Discrete-Time
Linear System Perspective [3.5823366350053325]
TD学習は強化学習(RL)の分野における基礎的アルゴリズムである
最近の研究では、有限時間誤差境界を開発することで、その統計的効率に関する保証を明らかにしている。
論文 参考訳(メタデータ) (2022-04-22T03:21:30Z) - Learning Pessimism for Robust and Efficient Off-Policy Reinforcement
Learning [0.0]
時間差学習における過大評価バイアスを補償するオフポリティ深い強化学習アルゴリズム。
そこで本研究では,このような悲観主義を実践するために,新たな学習可能なペナルティを提案する。
また,2つのTD学習で批判者とともにペナルティを学習することを提案する。
論文 参考訳(メタデータ) (2021-10-07T12:13:19Z) - Pre-emptive learning-to-defer for sequential medical decision-making
under uncertainty [35.077494648756876]
本研究では,SLTD(Sequential Learning-to-Defer)を,逐次的意思決定設定において専門家に先入観を学習するためのフレームワークとして提案する。
SLTDは、力学の根底にある不確実性に基づいて、現在と後の遅延値を改善する可能性を測定する。
論文 参考訳(メタデータ) (2021-09-13T20:43:10Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。