論文の概要: Gradient Temporal-Difference Learning with Regularized Corrections
- arxiv url: http://arxiv.org/abs/2007.00611v4
- Date: Thu, 17 Sep 2020 21:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:41:28.904611
- Title: Gradient Temporal-Difference Learning with Regularized Corrections
- Title(参考訳): 正規化補正による時間差勾配学習
- Authors: Sina Ghiassian, Andrew Patterson, Shivam Garg, Dhawal Gupta, Adam
White, Martha White
- Abstract要約: 正規化補正(TDRC)を用いた新しいTD法を提案する。
TDがうまく機能するとTDと同様に振る舞うが、TDが分岐する場合には音が聞こえる。
また,TD法とQ-ラーニング法を併用すれば,TD法とQ-ラーニング法を併用できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 28.087160600706948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is still common to use Q-learning and temporal difference (TD)
learning-even though they have divergence issues and sound Gradient TD
alternatives exist-because divergence seems rare and they typically perform
well. However, recent work with large neural network learning systems reveals
that instability is more common than previously thought. Practitioners face a
difficult dilemma: choose an easy to use and performant TD method, or a more
complex algorithm that is more sound but harder to tune and all but unexplored
with non-linear function approximation or control. In this paper, we introduce
a new method called TD with Regularized Corrections (TDRC), that attempts to
balance ease of use, soundness, and performance. It behaves as well as TD, when
TD performs well, but is sound in cases where TD diverges. We empirically
investigate TDRC across a range of problems, for both prediction and control,
and for both linear and non-linear function approximation, and show,
potentially for the first time, that gradient TD methods could be a better
alternative to TD and Q-learning.
- Abstract(参考訳): q-learning とtemporal difference (td) の学習は、発散問題や音勾配 td の代替物が存在するにもかかわらず一般的である。
しかし、最近の大規模ニューラルネットワーク学習システムによる研究により、不安定性は以前考えられていたよりも一般的であることが判明した。
実践者は難しいジレンマに直面している: 使いやすくパフォーマンスのよいTD法を選択するか、より健全でチューニングが難しく、非線形関数近似や制御で探索されていないアルゴリズムを選択する。
本稿では,tdrc(regularized corrections)と呼ばれる,使いやすさ,音質,性能のバランスを図る新しい手法を提案する。
TDがうまく機能するとTDと同様に振る舞うが、TDが分岐する場合には音が聞こえる。
予測と制御、線形関数近似と非線形関数近似の両方において、様々な問題にわたるtdrcを実証的に検討し、初めて勾配td法がtdとq-learningのより良い代替になりうることを示した。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - TD Convergence: An Optimization Perspective [16.12613645083317]
本稿では,TD学習アルゴリズムの収束挙動について検討する。
この結果から, 強化学習におけるTDの有効利用の理論的説明が得られた。
論文 参考訳(メタデータ) (2023-06-30T16:01:04Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Gradient Descent Temporal Difference-difference Learning [0.0]
GTDアルゴリズムであるGTD2を改善するために、降下時間差分差分法(グラディエントDD)学習を提案する。
本研究では,ランダムウォークタスク,ボイアンチェインタスク,ベアードのオフ・ポリチック・カウンターアンプを実証的に検討した。
論文 参考訳(メタデータ) (2022-09-10T08:55:20Z) - An Experimental Comparison Between Temporal Difference and Residual
Gradient with Neural Network Approximation [8.166265682999482]
ニューラルネットワーク近似を用いた深部Q-ラーニングでは、ベルマン残差最小化問題を解くために勾配降下がほとんど使われない。
本研究では,時間差(TD)が勾配降下(RG)より優れていることを示すため,広範な実験を行う。
また、TDの欠落項が、RGが著しく機能する鍵となる理由であることも実証的に検証する。
論文 参考訳(メタデータ) (2022-05-25T13:37:52Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning
Method [49.93717224277131]
PEriodically Restarted-ETD(PEriodically Restarted-ETD)と呼ばれる新しいETD手法を提案する。
PER-ETD は ETD と同じ所望の固定点に収束するが, 指数的なサンプルの複雑性は向上する。
論文 参考訳(メタデータ) (2021-10-13T17:40:12Z) - Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。
当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文 参考訳(メタデータ) (2021-05-10T06:07:05Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。