論文の概要: Learning to Sample with Local and Global Contexts in Experience Replay
Buffer
- arxiv url: http://arxiv.org/abs/2007.07358v2
- Date: Wed, 7 Apr 2021 15:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:58:48.620033
- Title: Learning to Sample with Local and Global Contexts in Experience Replay
Buffer
- Title(参考訳): experience replay bufferにおけるローカルおよびグローバルコンテキストを用いたサンプル学習
- Authors: Youngmin Oh, Kimin Lee, Jinwoo Shin, Eunho Yang, and Sung Ju Hwang
- Abstract要約: 遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
- 参考スコア(独自算出の注目度): 135.94190624087355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay, which enables the agents to remember and reuse experience
from the past, has played a significant role in the success of off-policy
reinforcement learning (RL). To utilize the experience replay efficiently, the
existing sampling methods allow selecting out more meaningful experiences by
imposing priorities on them based on certain metrics (e.g. TD-error). However,
they may result in sampling highly biased, redundant transitions since they
compute the sampling rate for each transition independently, without
consideration of its importance in relation to other transitions. In this
paper, we aim to address the issue by proposing a new learning-based sampling
method that can compute the relative importance of transition. To this end, we
design a novel permutation-equivariant neural architecture that takes contexts
from not only features of each transition (local) but also those of others
(global) as inputs. We validate our framework, which we refer to as Neural
Experience Replay Sampler (NERS), on multiple benchmark tasks for both
continuous and discrete control tasks and show that it can significantly
improve the performance of various off-policy RL methods. Further analysis
confirms that the improvements of the sample efficiency indeed are due to
sampling diverse and meaningful transitions by NERS that considers both local
and global contexts.
- Abstract(参考訳): 経験的リプレイは、エージェントが過去の経験を記憶し再利用することを可能にし、非政治強化学習(RL)の成功に重要な役割を果たしてきた。
経験リプレイを効率的に活用するために、既存のサンプリング手法では、特定の指標(例えばTDエラー)に基づいて、より意味のある経験を選択することができる。
しかし、それらは、他の遷移との関係においてその重要性を考慮せずに、各遷移のサンプリングレートを独立に計算するため、非常に偏りのある冗長な遷移をサンプリングする。
本稿では,遷移の相対的重要性を計算できる新しい学習ベースサンプリング手法を提案することで,この問題に対処することを目的とする。
この目的のために、各遷移(局所)の特徴だけでなく、他(グローバル)の特徴を入力としてコンテキストを取り出す新しい置換同変ニューラルアーキテクチャを設計する。
neural experience replay sampler(ners)と呼ばれるこのフレームワークを、連続制御と離散制御の両方のベンチマークタスクで検証し、様々なオフポリシーrlメソッドのパフォーマンスを大幅に改善できることを示しました。
さらなる分析により、サンプル効率の改善は、局所的およびグローバルな文脈の両方を考慮したNERSによる多様かつ有意義な遷移のサンプリングによるものであることが確認された。
関連論文リスト
- Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Adaptive Client Sampling in Federated Learning via Online Learning with
Bandit Feedback [36.05851452151107]
統合学習(FL)システムは、トレーニングの各ラウンドに関与するクライアントのサブセットをサンプリングする必要があります。
その重要性にもかかわらず、クライアントを効果的にサンプリングする方法には制限がある。
提案手法は,最適化アルゴリズムの収束速度をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - How Transferable are the Representations Learned by Deep Q Agents? [13.740174266824532]
我々は、Deep Reinforcement Learningのサンプル複雑さの源泉について考察する。
我々は、移行学習の利点を、ゼロからポリシーを学ぶことと比較する。
転送による利点は、一般に非常に可変であり、タスクのペア間で非対称である。
論文 参考訳(メタデータ) (2020-02-24T00:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。