論文の概要: Adaptive and Multiple Time-scale Eligibility Traces for Online Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.10040v2
- Date: Tue, 4 Jan 2022 00:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 03:20:44.658078
- Title: Adaptive and Multiple Time-scale Eligibility Traces for Online Deep
Reinforcement Learning
- Title(参考訳): オンライン深層強化学習のための適応的および多重時間スケール適性トレース
- Authors: Taisuke Kobayashi
- Abstract要約: 本手法は, サンプル効率向上のためのオンライン学習手法としてよく知られている。
ディープニューラルネットワークのパラメータ間の依存性は、適性トレースを破壊するため、DRLと統合されない。
本研究では,高い試料効率を維持しつつ,DRLでも使用可能な新しい可視性トレース手法を提案する。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) is one promising approach to teaching
robots to perform complex tasks. Because methods that directly reuse the stored
experience data cannot follow the change of the environment in robotic problems
with a time-varying environment, online DRL is required. The eligibility traces
method is well known as an online learning technique for improving sample
efficiency in traditional reinforcement learning with linear regressors rather
than DRL. The dependency between parameters of deep neural networks would
destroy the eligibility traces, which is why they are not integrated with DRL.
Although replacing the gradient with the most influential one rather than
accumulating the gradients as the eligibility traces can alleviate this
problem, the replacing operation reduces the number of reuses of previous
experiences. To address these issues, this study proposes a new eligibility
traces method that can be used even in DRL while maintaining high sample
efficiency. When the accumulated gradients differ from those computed using the
latest parameters, the proposed method takes into account the divergence
between the past and latest parameters to adaptively decay the eligibility
traces. Bregman divergences between outputs computed by the past and latest
parameters are exploited due to the infeasible computational cost of the
divergence between the past and latest parameters. In addition, a generalized
method with multiple time-scale traces is designed for the first time. This
design allows for the replacement of the most influential adaptively
accumulated (decayed) eligibility traces.
- Abstract(参考訳): 深層強化学習(DRL)は、複雑なタスクをロボットに教えるための有望なアプローチである。
保存された体験データを直接再利用する手法は,ロボット問題における環境変化に追従できないため,オンラインdrlが必要である。
本手法は, DRLではなく線形回帰器を用いた従来の強化学習において, サンプル効率を向上させるオンライン学習手法としてよく知られている。
ディープニューラルネットワークのパラメータ間の依存性は、適性トレースを破壊するため、DRLと統合されない。
勾配を勾配の累積ではなく最も影響力のあるものに置き換えることにより、可視性トレースがこの問題を軽減することができるが、置換操作は以前の経験の再利用回数を減らす。
これらの課題に対処するために, DRLにおいても高い試料効率を維持しつつ, 使用可能な新しい可視性トレース手法を提案する。
累積勾配が最新のパラメータで計算された値と異なる場合, 提案手法は過去のパラメータと最新のパラメータのばらつきを考慮に入れ, 適応的に可視性トレースを減衰させる。
過去に計算された出力と最新のパラメータの間でのブレグマンの発散は、過去のパラメータと最新のパラメータの発散の計算コストが非現実的なため悪用される。
また,複数の時間スケールトレースを持つ一般化手法を初めて設計した。
この設計により、最も適応的に蓄積された(分解された)可視性トレースを置き換えることができる。
関連論文リスト
- Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Solving Continual Offline Reinforcement Learning with Decision
Transformer [84.32004665413395]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Natural continual learning: success is a journey, not (just) a
destination [9.462808515258464]
自然継続学習(NCL)は、重み付け正規化と射影勾配降下を統一する新しい手法である。
提案手法は,RNNにおける連続学習問題に適用した場合,標準重み付け正規化手法とプロジェクションベースアプローチの両方に優れる。
トレーニングされたネットワークは、生体回路の実験的な発見と同様に、新しいタスクが学習されると強く保存されるタスク固有ダイナミクスを進化させる。
論文 参考訳(メタデータ) (2021-06-15T12:24:53Z) - Streaming Linear System Identification with Reverse Experience Replay [45.17023170054112]
本稿では,線形時間不変(LTI)力学系を,ストリーミングアルゴリズムによる単一軌道から推定する問題を考察する。
強化学習(RL)で遭遇する多くの問題において、勾配オラクルを用いて囲碁上のパラメータを推定することが重要である。
本稿では,RL文学で人気のある経験リプレイ(ER)技術に触発された小説SGD with Reverse Experience Replay (SGD-RER)を提案する。
論文 参考訳(メタデータ) (2021-03-10T06:51:55Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Facilitate the Parametric Dimension Reduction by Gradient Clipping [1.9671123873378715]
我々は、ニューラルネットワークのトレーニングにより、非パラメトリックからパラメトリックへ、よく知られた次元削減手法であるt分散隣接埋め込み(t-SNE)を拡張した。
本手法は, 一般化を楽しみながら, 非パラメトリックt-SNEと互換性のある埋め込み品質を実現する。
論文 参考訳(メタデータ) (2020-09-30T01:21:22Z) - Deep Reinforcement Learning using Cyclical Learning Rates [62.19441737665902]
勾配降下(SGD)に基づく最適化手順における最も影響力のあるパラメータの1つは、学習率である。
循環学習について検討し,様々なDRL問題に対する一般循環学習率の定義法を提案する。
本実験により, 循環学習は, 高度に調整された固定学習率よりも, 類似あるいは良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-31T10:06:02Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。