論文の概要: Off-Policy Reinforcement Learning with Loss Function Weighted by
Temporal Difference Error
- arxiv url: http://arxiv.org/abs/2212.13175v1
- Date: Mon, 26 Dec 2022 14:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:49:41.796053
- Title: Off-Policy Reinforcement Learning with Loss Function Weighted by
Temporal Difference Error
- Title(参考訳): 時間差誤差重み付き損失関数を用いたオフポリシー強化学習
- Authors: Bumgeun Park, Taeyoung Kim, Woohyeon Moon, Luiz Felipe Vecchietti and
Dongsoo Har
- Abstract要約: 政治外の深層学習(RL)によるトレーニングエージェントは、学習に使用される過去の経験を記憶する、リプレイメモリと呼ばれる大きなメモリを必要とする。
損失関数を計算するとき、非政治アルゴリズムは全てのサンプルが同じ重要性を持つと仮定する。
本稿では,学習段階における損失関数を計算する際に,経験ごとに重み付け係数を導入する手法を提案する。
- 参考スコア(独自算出の注目度): 2.255666468574186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training agents via off-policy deep reinforcement learning (RL) requires a
large memory, named replay memory, that stores past experiences used for
learning. These experiences are sampled, uniformly or non-uniformly, to create
the batches used for training. When calculating the loss function, off-policy
algorithms assume that all samples are of the same importance. In this paper,
we hypothesize that training can be enhanced by assigning different importance
for each experience based on their temporal-difference (TD) error directly in
the training objective. We propose a novel method that introduces a weighting
factor for each experience when calculating the loss function at the learning
stage. In addition to improving convergence speed when used with uniform
sampling, the method can be combined with prioritization methods for
non-uniform sampling. Combining the proposed method with prioritization methods
improves sampling efficiency while increasing the performance of TD-based
off-policy RL algorithms. The effectiveness of the proposed method is
demonstrated by experiments in six environments of the OpenAI Gym suite. The
experimental results demonstrate that the proposed method achieves a 33%~76%
reduction of convergence speed in three environments and an 11% increase in
returns and a 3%~10% increase in success rate for other three environments.
- Abstract(参考訳): オフポリシー・ディープ強化学習(rl)によるトレーニングエージェントは、学習に使用される過去の経験を記憶するリプレイメモリと呼ばれる大きなメモリを必要とする。
これらの経験は、トレーニングに使用されるバッチを作成するために、一様または非一様にサンプリングされる。
損失関数を計算するとき、オフポリシーアルゴリズムは全てのサンプルが同じ重要性を持つと仮定する。
本稿では,td(temporal-difference)エラーに基づいて,各体験に異なる重要度を付与することで,トレーニングを向上できると仮定する。
学習段階における損失関数を計算する際に,各経験に重み付け係数を導入する新しい手法を提案する。
均一サンプリングを用いた場合の収束速度の向上に加えて, 非一様サンプリングの優先順位付け手法と組み合わせることができる。
提案手法と優先順位付け手法を組み合わせることでサンプリング効率が向上し,TDに基づくオフポリシーRLアルゴリズムの性能が向上する。
提案手法の有効性は,OpenAI Gymスイートの6つの環境での実験によって実証された。
実験の結果,提案手法は3つの環境における収束速度を33%~76%削減し,リターンを11%向上させ,他の3つの環境での成功率を3%~10%向上させた。
関連論文リスト
- Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Rethinking Population-assisted Off-policy Reinforcement Learning [7.837628433605179]
オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。
人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
論文 参考訳(メタデータ) (2023-05-04T15:53:00Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - Seeking Visual Discomfort: Curiosity-driven Representations for
Reinforcement Learning [12.829056201510994]
状態表現学習におけるサンプルの多様性向上のためのアプローチを提案する。
提案手法は,問題状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを向上する。
論文 参考訳(メタデータ) (2021-10-02T11:15:04Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。