論文の概要: Adaptive and Multiple Time-scale Eligibility Traces for Online Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.10040v2
- Date: Tue, 4 Jan 2022 00:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 03:20:44.658078
- Title: Adaptive and Multiple Time-scale Eligibility Traces for Online Deep
Reinforcement Learning
- Title(参考訳): オンライン深層強化学習のための適応的および多重時間スケール適性トレース
- Authors: Taisuke Kobayashi
- Abstract要約: 本手法は, サンプル効率向上のためのオンライン学習手法としてよく知られている。
ディープニューラルネットワークのパラメータ間の依存性は、適性トレースを破壊するため、DRLと統合されない。
本研究では,高い試料効率を維持しつつ,DRLでも使用可能な新しい可視性トレース手法を提案する。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) is one promising approach to teaching
robots to perform complex tasks. Because methods that directly reuse the stored
experience data cannot follow the change of the environment in robotic problems
with a time-varying environment, online DRL is required. The eligibility traces
method is well known as an online learning technique for improving sample
efficiency in traditional reinforcement learning with linear regressors rather
than DRL. The dependency between parameters of deep neural networks would
destroy the eligibility traces, which is why they are not integrated with DRL.
Although replacing the gradient with the most influential one rather than
accumulating the gradients as the eligibility traces can alleviate this
problem, the replacing operation reduces the number of reuses of previous
experiences. To address these issues, this study proposes a new eligibility
traces method that can be used even in DRL while maintaining high sample
efficiency. When the accumulated gradients differ from those computed using the
latest parameters, the proposed method takes into account the divergence
between the past and latest parameters to adaptively decay the eligibility
traces. Bregman divergences between outputs computed by the past and latest
parameters are exploited due to the infeasible computational cost of the
divergence between the past and latest parameters. In addition, a generalized
method with multiple time-scale traces is designed for the first time. This
design allows for the replacement of the most influential adaptively
accumulated (decayed) eligibility traces.
- Abstract(参考訳): 深層強化学習(DRL)は、複雑なタスクをロボットに教えるための有望なアプローチである。
保存された体験データを直接再利用する手法は,ロボット問題における環境変化に追従できないため,オンラインdrlが必要である。
本手法は, DRLではなく線形回帰器を用いた従来の強化学習において, サンプル効率を向上させるオンライン学習手法としてよく知られている。
ディープニューラルネットワークのパラメータ間の依存性は、適性トレースを破壊するため、DRLと統合されない。
勾配を勾配の累積ではなく最も影響力のあるものに置き換えることにより、可視性トレースがこの問題を軽減することができるが、置換操作は以前の経験の再利用回数を減らす。
これらの課題に対処するために, DRLにおいても高い試料効率を維持しつつ, 使用可能な新しい可視性トレース手法を提案する。
累積勾配が最新のパラメータで計算された値と異なる場合, 提案手法は過去のパラメータと最新のパラメータのばらつきを考慮に入れ, 適応的に可視性トレースを減衰させる。
過去に計算された出力と最新のパラメータの間でのブレグマンの発散は、過去のパラメータと最新のパラメータの発散の計算コストが非現実的なため悪用される。
また,複数の時間スケールトレースを持つ一般化手法を初めて設計した。
この設計により、最も適応的に蓄積された(分解された)可視性トレースを置き換えることができる。
関連論文リスト
- MelissaDL x Breed: Towards Data-Efficient On-line Supervised Training of Multi-parametric Surrogates with Active Learning [0.0]
オンライン・サロゲート・トレーニングにおけるデータ効率を向上させるための新しいアクティブ・ラーニング手法を提案する。
シュロゲートは、初期条件と境界条件の異なるパラメータで、与えられた時間ステップを直接予測するように訓練される。
2次元熱PDEの予備的な結果は、この方法、ブリード (Breed) の可能性を示し、サロゲートの一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-08T09:52:15Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Streaming Linear System Identification with Reverse Experience Replay [45.17023170054112]
本稿では,線形時間不変(LTI)力学系を,ストリーミングアルゴリズムによる単一軌道から推定する問題を考察する。
強化学習(RL)で遭遇する多くの問題において、勾配オラクルを用いて囲碁上のパラメータを推定することが重要である。
本稿では,RL文学で人気のある経験リプレイ(ER)技術に触発された小説SGD with Reverse Experience Replay (SGD-RER)を提案する。
論文 参考訳(メタデータ) (2021-03-10T06:51:55Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。