論文の概要: Truncated Emphatic Temporal Difference Methods for Prediction and
Control
- arxiv url: http://arxiv.org/abs/2108.05338v1
- Date: Wed, 11 Aug 2021 17:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:22:31.412561
- Title: Truncated Emphatic Temporal Difference Methods for Prediction and
Control
- Title(参考訳): 予測と制御のための断続的強調時間差法
- Authors: Shangtong Zhang, Shimon Whiteson
- Abstract要約: 強調的テンポラルラーニング(英語: Emphatic Temporal Learning, TD)は、追従トレースの使用を含む非政治強化ラーニング(英語版)(RL)手法のクラスである。
本稿では,強調的TD法において,truncated followingon tracesを用いて3つの問題を同時に解決する。
- 参考スコア(独自算出の注目度): 77.58311033916661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emphatic Temporal Difference (TD) methods are a class of off-policy
Reinforcement Learning (RL) methods involving the use of followon traces.
Despite the theoretical success of emphatic TD methods in addressing the
notorious deadly triad (Sutton and Barto, 2018) of off-policy RL, there are
still three open problems. First, the motivation for emphatic TD methods
proposed by Sutton et al. (2016) does not align with the convergence analysis
of Yu (2015). Namely, a quantity used by Sutton et al. (2016) that is expected
to be essential for the convergence of emphatic TD methods is not used in the
actual convergence analysis of Yu (2015). Second, followon traces typically
suffer from large variance, making them hard to use in practice. Third, despite
the seminal work of Yu (2015) confirming the asymptotic convergence of some
emphatic TD methods for prediction problems, there is still no finite sample
analysis for any emphatic TD method for prediction, much less control. In this
paper, we address those three open problems simultaneously via using truncated
followon traces in emphatic TD methods. Unlike the original followon traces,
which depend on all previous history, truncated followon traces depend on only
finite history, reducing variance and enabling the finite sample analysis of
our proposed emphatic TD methods for both prediction and control.
- Abstract(参考訳): 強調時間差分法(英語: Emphatic Temporal difference, TD)とは、追従トレースを用いた非政治強化学習法である。
政治的RLの致命的な三位一体(Sutton and Barto, 2018)に対処するために、強調的なTD法が理論的に成功したにもかかわらず、まだ3つの未解決問題がある。
第一に、サットンらによって提案された強調的TD法の動機である。
(2016) は、Yu (2015) の収束解析と一致しない。
すなわち、Suttonらによって使われる量である。
(2016)は,Yu(2015)の実際の収束解析において,強調的TD手法の収束に必須であると期待されている。
第二に、追跡トレースは一般的に大きなばらつきに悩まされ、実際に使うのが難しくなる。
第三に、予測問題に対する強調的td法の漸近収束を確認したyu (2015)の独創的研究にもかかわらず、予測のための強調的td法についてはまだ有限なサンプル分析が存在しない。
本稿では,これら3つのオープンな問題を,強調的TD手法の追従トレースを用いて同時に解決する。
過去のすべての履歴に依存するオリジナルの追従トレースとは異なり、追従トレースは有限履歴のみに依存し、分散を低減し、予測と制御の両方のために提案した強調的TD法の有限サンプル解析を可能にする。
関連論文リスト
- TD Convergence: An Optimization Perspective [16.12613645083317]
本稿では,TD学習アルゴリズムの収束挙動について検討する。
この結果から, 強化学習におけるTDの有効利用の理論的説明が得られた。
論文 参考訳(メタデータ) (2023-06-30T16:01:04Z) - Taylor TD-learning [25.958907308877148]
モデルベースのフレームワークであるTaylor TDを導入し、連続的な状態-動作設定におけるこの分散を低減します。
Taylor TDは、TD更新の1階目のTaylorシリーズ拡張を使用している。
我々はTaylor TDが線形関数近似を用いた標準TD学習と同じ安定した学習保証を持つことを示す。
論文 参考訳(メタデータ) (2023-02-27T22:46:44Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Finite time analysis of temporal difference learning with linear
function approximation: Tail averaging and regularisation [44.27439128304058]
そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。
ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
論文 参考訳(メタデータ) (2022-10-12T04:37:54Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Learning from Noisy Labels via Dynamic Loss Thresholding [69.61904305229446]
我々はDLT(Dynamic Loss Thresholding)という新しい手法を提案する。
トレーニングプロセス中、DLTは各サンプルの損失値を記録し、動的損失閾値を算出する。
CIFAR-10/100 と Clothing1M の実験は、最近の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-04-01T07:59:03Z) - Gradient Temporal-Difference Learning with Regularized Corrections [28.087160600706948]
正規化補正(TDRC)を用いた新しいTD法を提案する。
TDがうまく機能するとTDと同様に振る舞うが、TDが分岐する場合には音が聞こえる。
また,TD法とQ-ラーニング法を併用すれば,TD法とQ-ラーニング法を併用できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-01T16:56:56Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。