論文の概要: Demystifying the Recency Heuristic in Temporal-Difference Learning
- arxiv url: http://arxiv.org/abs/2406.12284v2
- Date: Mon, 26 Aug 2024 11:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 23:07:37.710536
- Title: Demystifying the Recency Heuristic in Temporal-Difference Learning
- Title(参考訳): 時間差学習における待ち時間ヒューリスティックのデミステレーション
- Authors: Brett Daley, Marlos C. Machado, Martha White,
- Abstract要約: 強化学習の相対性は、獲得した報酬に間に合った刺激を強く強化すべきである、という仮定である。
本稿では,TD学習における電流の応用に関する数学的意味を分析する。
以上の結果から,信頼度に基づく信用割当が学習を促進するという,最初の理論的証拠が得られた。
- 参考スコア(独自算出の注目度): 24.072317774998606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recency heuristic in reinforcement learning is the assumption that stimuli that occurred closer in time to an acquired reward should be more heavily reinforced. The recency heuristic is one of the key assumptions made by TD($\lambda$), which reinforces recent experiences according to an exponentially decaying weighting. In fact, all other widely used return estimators for TD learning, such as $n$-step returns, satisfy a weaker (i.e., non-monotonic) recency heuristic. Why is the recency heuristic effective for temporal credit assignment? What happens when credit is assigned in a way that violates this heuristic? In this paper, we analyze the specific mathematical implications of adopting the recency heuristic in TD learning. We prove that any return estimator satisfying this heuristic: 1) is guaranteed to converge to the correct value function, 2) has a relatively fast contraction rate, and 3) has a long window of effective credit assignment, yet bounded worst-case variance. We also give a counterexample where on-policy, tabular TD methods violating the recency heuristic diverge. Our results offer some of the first theoretical evidence that credit assignment based on the recency heuristic facilitates learning.
- Abstract(参考訳): 強化学習における回帰ヒューリスティック(recency heuristic)とは、獲得した報酬に間に合った刺激が、より強く強化されるべきである、という仮定である。
直流ヒューリスティックはTD($\lambda$)によってなされた重要な仮定の1つであり、指数関数的に減衰する重み付けに従って最近の経験を補強する。
実際、他の広く使われているTD学習のための戻り値推定器(例えば$n$-step return)は、より弱い(非単調な)回帰ヒューリスティックを満たす。
経時的信用割当てになぜリレーレンシーヒューリスティックが有効か?
このヒューリスティックに反する方法でクレジットが割り当てられたらどうなるのか?
本稿では,直流ヒューリスティックをTD学習に適用する際の数学的意味を分析する。
このヒューリスティックを満たす回帰推定器を証明します。
1)は正しい値関数に収束することが保証される。
2)比較的速い収縮率で、
3) 効果的なクレジット割り当ての窓口は長いが、最悪の場合のばらつきがある。
また,直流ヒューリスティックな分岐に反する,オンラインな表型TD手法も提案する。
以上の結果から,直流ヒューリスティックに基づく信用割当が学習を促進するという理論的証拠が得られた。
関連論文リスト
- Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning [33.28797183140384]
時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
ラムダ$-returnターゲットの計算モデルからトランジションの予測確率を利用するチャンク付きTDを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:49:29Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - On Using Admissible Bounds for Learning Forward Search Heuristics [9.749638953163391]
学習において,受理者が提供する情報を効果的に活用する方法に焦点をあてる。
学習対象は、学習対象ではなく、この分布の下位境界として、許容値が使用される、切り裂かれたssianとしてモデル化する。
その結果,提案手法はトレーニング中により高速に収束し,より優れたガウスが得られることがわかった。
論文 参考訳(メタデータ) (2023-08-23T04:14:45Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文 参考訳(メタデータ) (2021-09-13T16:09:31Z) - Pairwise Weights for Temporal Credit Assignment [20.532698866345964]
州で取られた行動は、将来の報奨としてどのくらいの信用(または責任)を得るべきか?
これは強化学習(RL)における基本的な信用割当問題である
政策の通常のRLトレーニングにおいて,これらの重み関数を学習するためのメタグラディエントな手順を開発する。
私たちの経験的研究は、競合するアプローチよりも優れたパフォーマンスを達成するためのポリシーの学習中に、これらのペアウェイト関数を学習することがしばしば可能であることを示している。
論文 参考訳(メタデータ) (2021-02-09T18:06:29Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。