論文の概要: Parameter-free Gradient Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2105.04129v1
- Date: Mon, 10 May 2021 06:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:18:18.158551
- Title: Parameter-free Gradient Temporal Difference Learning
- Title(参考訳): パラメータフリー勾配時間差学習
- Authors: Andrew Jacobsen, Alan Chan
- Abstract要約: 強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。
当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
- 参考スコア(独自算出の注目度): 3.553493344868414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning lies at the intersection of several challenges. Many
applications of interest involve extremely large state spaces, requiring
function approximation to enable tractable computation. In addition, the
learner has only a single stream of experience with which to evaluate a large
number of possible courses of action, necessitating algorithms which can learn
off-policy. However, the combination of off-policy learning with function
approximation leads to divergence of temporal difference methods. Recent work
into gradient-based temporal difference methods has promised a path to
stability, but at the cost of expensive hyperparameter tuning. In parallel,
progress in online learning has provided parameter-free methods that achieve
minimax optimal guarantees up to logarithmic terms, but their application in
reinforcement learning has yet to be explored. In this work, we combine these
two lines of attack, deriving parameter-free, gradient-based temporal
difference algorithms. Our algorithms run in linear time and achieve
high-probability convergence guarantees matching those of GTD2 up to $\log$
factors. Our experiments demonstrate that our methods maintain high prediction
performance relative to fully-tuned baselines, with no tuning whatsoever.
- Abstract(参考訳): 強化学習はいくつかの課題の交点にある。
興味のある多くの応用は、非常に大きな状態空間を含み、扱いやすい計算を可能にするために関数近似を必要とする。
さらに、学習者は単一の経験の流れしか持たず、多種多様なアクション・コースを評価できるため、非政治的学習が可能なアルゴリズムを必要とする。
しかし、オフ・ポリシー学習と関数近似の組み合わせは時間差法の違いにつながる。
勾配に基づく時間差法に関する最近の研究は、安定性への道を約束しているが、高価なハイパーパラメータチューニングのコストがかかる。
オンライン学習の進歩は、対数項まで最小限の保証を実現するパラメータフリーな手法を提供してきたが、強化学習への応用はまだ検討されていない。
本研究では、パラメータフリーで勾配に基づく時間差アルゴリズムを導出した2つの攻撃列を組み合わせる。
我々のアルゴリズムは線形時間で動作し、GTD2の値と最大$\log$因子の一致を保証する。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を維持していることを示す。
関連論文リスト
- Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Efficient Meta-Learning for Continual Learning with Taylor Expansion
Approximation [2.28438857884398]
連続学習は、非定常分布下で連続的なタスクを処理する際の破滅的な忘れを緩和することを目的としている。
本稿では,オンライン連続学習問題を解決するためのメタ学習アルゴリズムを提案する。
提案手法は, 最先端手法と比較して, 高い性能, 高い効率を実現している。
論文 参考訳(メタデータ) (2022-10-03T04:57:05Z) - Gradient Descent Temporal Difference-difference Learning [0.0]
GTDアルゴリズムであるGTD2を改善するために、降下時間差分差分法(グラディエントDD)学習を提案する。
本研究では,ランダムウォークタスク,ボイアンチェインタスク,ベアードのオフ・ポリチック・カウンターアンプを実証的に検討した。
論文 参考訳(メタデータ) (2022-09-10T08:55:20Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。