論文の概要: Discerning Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2310.08091v2
- Date: Sat, 10 Feb 2024 14:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 22:07:26.276189
- Title: Discerning Temporal Difference Learning
- Title(参考訳): 時間差学習の認識
- Authors: Jianfei Ma
- Abstract要約: 時間差分学習(TD)は強化学習の基礎概念である
我々は、識別型TD学習(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal difference learning (TD) is a foundational concept in reinforcement
learning (RL), aimed at efficiently assessing a policy's value function.
TD($\lambda$), a potent variant, incorporates a memory trace to distribute the
prediction error into the historical context. However, this approach often
neglects the significance of historical states and the relative importance of
propagating the TD error, influenced by challenges such as visitation imbalance
or outcome noise. To address this, we propose a novel TD algorithm named
discerning TD learning (DTD), which allows flexible emphasis
functions$-$predetermined or adapted during training$-$to allocate efforts
effectively across states. We establish the convergence properties of our
method within a specific class of emphasis functions and showcase its promising
potential for adaptation to deep RL contexts. Empirical results underscore that
employing a judicious emphasis function not only improves value estimation but
also expedites learning across diverse scenarios.
- Abstract(参考訳): 時間差分学習(TD)は、政策の価値関数を効率的に評価することを目的とした強化学習(RL)の基本概念である。
強力な変種であるtd($\lambda$)は、メモリトレースを組み込んで、予測エラーを歴史的なコンテキストに分散する。
しかし、この手法は歴史的状態の重要性や、訪問不均衡や結果ノイズといった課題の影響を受けて、TDエラーを伝播する相対的な重要性を無視することが多い。
そこで本研究では,TDラーニング(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
特定の強調関数のクラス内で,本手法の収束特性を確立し,深部RL文脈への適応の可能性を示す。
実証的な結果は、偏重関数を用いることで価値の推定が向上するだけでなく、さまざまなシナリオでの学習が迅速になることを示している。
関連論文リスト
- Exploiting Estimation Bias in Deep Double Q-Learning for Actor-Critic
Methods [6.403512866289237]
予測遅延Deep Deterministic Policy Gradient (ExpD3) と Bias Exploiting - 双遅延Deep Deterministic Policy Gradient (BE-TD3) の2つの新しいアルゴリズムを提案する。
ExpD3は1つの$Q$推定で過大評価バイアスを減らすことを目的としており、BE-TD3はトレーニング中に最も有利な推定バイアスを動的に選択するように設計されている。
これらのアルゴリズムは、特に推定バイアスが学習に大きな影響を及ぼす環境において、TD3のような既存の手法にマッチするか、超える可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Prediction and Control in Continual Reinforcement Learning [39.30411018922005]
時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。
本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-12-18T19:23:42Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Amortized Variational Deep Q Network [28.12600565839504]
本稿では,ディープQネットワークにおける動作値関数の後方分布を近似する補正型変分推論フレームワークを提案する。
このアモータイズされたフレームワークは,既存の最先端手法よりも学習パラメータがかなり少ないことを示す。
論文 参考訳(メタデータ) (2020-11-03T13:48:18Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。