論文の概要: Improving Experience Replay through Modeling of Similar Transitions'
Sets
- arxiv url: http://arxiv.org/abs/2111.06907v1
- Date: Fri, 12 Nov 2021 19:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 06:23:58.786209
- Title: Improving Experience Replay through Modeling of Similar Transitions'
Sets
- Title(参考訳): 類似遷移集合のモデリングによる経験リプレイの改善
- Authors: Daniel Eug\^enio Neves, Jo\~ao Pedro Oliveira Batisteli, Eduardo
Felipe Lopes, Lucila Ishitani and Zenilton Kleber Gon\c{c}alves do
Patroc\'inio J\'unior (Pontif\'icia Universidade Cat\'olica de Minas Gerais,
Belo Horizonte, Brazil)
- Abstract要約: 我々は,新しい強化学習手法Compact Experience Replay(COMPER)を提案し,評価する。
本研究の目的は,長期の累積報酬に関するエージェントトレーニングに必要な経験を減らすことである。
約10万フレームのComperの5つのトレーニング試行の結果を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose and evaluate a new reinforcement learning method,
COMPact Experience Replay (COMPER), which uses temporal difference learning
with predicted target values based on recurrence over sets of similar
transitions, and a new approach for experience replay based on two transitions
memories. Our objective is to reduce the required number of experiences to
agent training regarding the total accumulated rewarding in the long run. Its
relevance to reinforcement learning is related to the small number of
observations that it needs to achieve results similar to that obtained by
relevant methods in the literature, that generally demand millions of video
frames to train an agent on the Atari 2600 games. We report detailed results
from five training trials of COMPER for just 100,000 frames and about 25,000
iterations with a small experiences memory on eight challenging games of Arcade
Learning Environment (ALE). We also present results for a DQN agent with the
same experimental protocol on the same games set as the baseline. To verify the
performance of COMPER on approximating a good policy from a smaller number of
observations, we also compare its results with that obtained from millions of
frames presented on the benchmark of ALE.
- Abstract(参考訳): 本研究では、類似した遷移の集合に対する繰り返しに基づく予測対象値による時間差学習と、2つの遷移記憶に基づく経験再生の新しいアプローチを用いた新しい強化学習手法であるCOMPER(Compact Experience Replay)を提案し、評価する。
本研究の目的は,長期の累積報酬に関するエージェントトレーニングに必要な経験を減らすことである。
強化学習の関連性は、アタリ2600のゲームでエージェントを訓練するために数百万の動画フレームを必要とする文献の関連手法と類似した結果を得るために必要な少数の観察に関係している。
アーケード学習環境(ale)の8つのチャレンジゲームにおいて,約10万フレームのcomperの5つのトレーニング試行と,約25,000のイテレーションの小さな経験による詳細な成果を報告した。
また,同じゲームセット上の実験プロトコルを持つdqnエージェントに対して,ベースラインと同じ結果を示す。
また,より少ない観測値から適切なポリシーを近似するComperの性能を検証するために,ALEのベンチマークで提示された数百万フレームから得られた結果と比較した。
関連論文リスト
- REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Pixel to policy: DQN Encoders for within & cross-game reinforcement
learning [0.0]
強化学習は様々なタスクや環境に適用できる。
多くの環境は類似した構造を持ち、他のタスクでのRL性能を改善するために利用することができる。
この研究は、スクラッチからトレーニングされたRLモデルのパフォーマンスと、トランスファーラーニングの異なるアプローチの比較も行っている。
論文 参考訳(メタデータ) (2023-08-01T06:29:33Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Memory-Augmented Relation Network for Few-Shot Learning [114.47866281436829]
本研究では,新しい距離学習手法であるメモリ拡張リレーショナルネットワーク(MRN)について検討する。
MRNでは、作業状況と視覚的に類似したサンプルを選択し、重み付け情報伝搬を行い、選択したサンプルから有用な情報を注意深く集約し、その表現を強化する。
我々は、MRNが祖先よりも大幅に向上し、他の数発の学習手法と比較して、競争力や性能が向上することを示した。
論文 参考訳(メタデータ) (2020-05-09T10:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。