論文の概要: Learning to Sample with Local and Global Contexts in Experience Replay
Buffer
- arxiv url: http://arxiv.org/abs/2007.07358v2
- Date: Wed, 7 Apr 2021 15:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:58:48.620033
- Title: Learning to Sample with Local and Global Contexts in Experience Replay
Buffer
- Title(参考訳): experience replay bufferにおけるローカルおよびグローバルコンテキストを用いたサンプル学習
- Authors: Youngmin Oh, Kimin Lee, Jinwoo Shin, Eunho Yang, and Sung Ju Hwang
- Abstract要約: 遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
- 参考スコア(独自算出の注目度): 135.94190624087355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay, which enables the agents to remember and reuse experience
from the past, has played a significant role in the success of off-policy
reinforcement learning (RL). To utilize the experience replay efficiently, the
existing sampling methods allow selecting out more meaningful experiences by
imposing priorities on them based on certain metrics (e.g. TD-error). However,
they may result in sampling highly biased, redundant transitions since they
compute the sampling rate for each transition independently, without
consideration of its importance in relation to other transitions. In this
paper, we aim to address the issue by proposing a new learning-based sampling
method that can compute the relative importance of transition. To this end, we
design a novel permutation-equivariant neural architecture that takes contexts
from not only features of each transition (local) but also those of others
(global) as inputs. We validate our framework, which we refer to as Neural
Experience Replay Sampler (NERS), on multiple benchmark tasks for both
continuous and discrete control tasks and show that it can significantly
improve the performance of various off-policy RL methods. Further analysis
confirms that the improvements of the sample efficiency indeed are due to
sampling diverse and meaningful transitions by NERS that considers both local
and global contexts.
- Abstract(参考訳): 経験的リプレイは、エージェントが過去の経験を記憶し再利用することを可能にし、非政治強化学習(RL)の成功に重要な役割を果たしてきた。
経験リプレイを効率的に活用するために、既存のサンプリング手法では、特定の指標(例えばTDエラー)に基づいて、より意味のある経験を選択することができる。
しかし、それらは、他の遷移との関係においてその重要性を考慮せずに、各遷移のサンプリングレートを独立に計算するため、非常に偏りのある冗長な遷移をサンプリングする。
本稿では,遷移の相対的重要性を計算できる新しい学習ベースサンプリング手法を提案することで,この問題に対処することを目的とする。
この目的のために、各遷移(局所)の特徴だけでなく、他(グローバル)の特徴を入力としてコンテキストを取り出す新しい置換同変ニューラルアーキテクチャを設計する。
neural experience replay sampler(ners)と呼ばれるこのフレームワークを、連続制御と離散制御の両方のベンチマークタスクで検証し、様々なオフポリシーrlメソッドのパフォーマンスを大幅に改善できることを示しました。
さらなる分析により、サンプル効率の改善は、局所的およびグローバルな文脈の両方を考慮したNERSによる多様かつ有意義な遷移のサンプリングによるものであることが確認された。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Adaptive Client Sampling in Federated Learning via Online Learning with
Bandit Feedback [36.05851452151107]
統合学習(FL)システムは、トレーニングの各ラウンドに関与するクライアントのサブセットをサンプリングする必要があります。
その重要性にもかかわらず、クライアントを効果的にサンプリングする方法には制限がある。
提案手法は,最適化アルゴリズムの収束速度をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - How Transferable are the Representations Learned by Deep Q Agents? [13.740174266824532]
我々は、Deep Reinforcement Learningのサンプル複雑さの源泉について考察する。
我々は、移行学習の利点を、ゼロからポリシーを学ぶことと比較する。
転送による利点は、一般に非常に可変であり、タスクのペア間で非対称である。
論文 参考訳(メタデータ) (2020-02-24T00:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。