論文の概要: Deep Reinforcement Learning with Quantum-inspired Experience Replay
- arxiv url: http://arxiv.org/abs/2101.02034v1
- Date: Wed, 6 Jan 2021 13:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:12:38.027218
- Title: Deep Reinforcement Learning with Quantum-inspired Experience Replay
- Title(参考訳): 量子インスパイアされた体験リプレイによる深層強化学習
- Authors: Qing Wei, Hailan Ma, Chunlin Chen, Daoyi Dong
- Abstract要約: 経験的リプレイを伴う深部強化学習(DRL)のために,量子計算にインスパイアされた新しいトレーニングパラダイムを提案する。
量子インスパイアされた体験リプレイ(DRL-QER)を用いた深層強化学習は、各体験の複雑さと再生時間に応じてリプレイバッファから経験を適応的に選択する(トランジションとも呼ばれる)。
Atari 2600ゲームに関する実験結果は、DRL-QERがDRL-PERやDCRLなどの最先端のアルゴリズムを上回り、トレーニング効率が向上したことを示している。
- 参考スコア(独自算出の注目度): 6.833294755109369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a novel training paradigm inspired by quantum computation is
proposed for deep reinforcement learning (DRL) with experience replay. In
contrast to traditional experience replay mechanism in DRL, the proposed deep
reinforcement learning with quantum-inspired experience replay (DRL-QER)
adaptively chooses experiences from the replay buffer according to the
complexity and the replayed times of each experience (also called transition),
to achieve a balance between exploration and exploitation. In DRL-QER,
transitions are first formulated in quantum representations, and then the
preparation operation and the depreciation operation are performed on the
transitions. In this progress, the preparation operation reflects the
relationship between the temporal difference errors (TD-errors) and the
importance of the experiences, while the depreciation operation is taken into
account to ensure the diversity of the transitions. The experimental results on
Atari 2600 games show that DRL-QER outperforms state-of-the-art algorithms such
as DRL-PER and DCRL on most of these games with improved training efficiency,
and is also applicable to such memory-based DRL approaches as double network
and dueling network.
- Abstract(参考訳): 本稿では,経験的リプレイを伴う深部強化学習(DRL)のために,量子計算にインスパイアされた新しいトレーニングパラダイムを提案する。
DRLの従来の経験リプレイ機構とは対照的に、量子インスパイアされた経験リプレイ(DRL-QER)を用いた深層強化学習では、各経験の複雑さと再生時間(遷移とも呼ばれる)に応じて、リプレイバッファから経験を適応的に選択し、探索と搾取のバランスをとる。
DRL-QERでは、遷移をまず量子表現で定式化し、その遷移に対して準備操作と減価演算を行う。
この過程では, 時間差誤差(TDエラー)と経験の重要性との関係を反映し, 減価償却操作を考慮し, 遷移の多様性を確保する。
Atari 2600ゲームにおける実験結果から、DRL-QERはDRL-PERやDCRLといった最先端のアルゴリズムよりも訓練効率が向上し、ダブルネットワークやデュエルネットワークといったメモリベースのDRLアプローチにも適用可能であることが示された。
関連論文リスト
- CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning [11.13226491866178]
時系列を意味のあるサブシーケンスに分割する新しい手法を提案し,これらのサブシーケンスに基づいて時系列を表現する。
このサブシーケンスは、トレーニング結果に大きな影響を及ぼす基本的な因果的要因を特定するために因果推論に使用される。
いくつかの実験は、我々のアプローチが共通の環境で実現可能であることを実証し、DRLトレーニングの有効性を高め、トレーニングプロセスに一定のレベルの説明可能性を与える能力を確認した。
論文 参考訳(メタデータ) (2024-05-14T07:23:10Z) - Replay across Experiments: A Natural Extension of Off-Policy RL [18.545939667810565]
複数の実験にまたがってリプレイを効果的に拡張するフレームワークを提案する。
コアとなるReplay Across Experiments (RaE)は、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善する。
我々は、多数のRLアルゴリズムにまたがる利点を実証的に示し、移動と操作の両方にまたがる制御領域に挑戦する。
論文 参考訳(メタデータ) (2023-11-27T15:57:11Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Temporal Difference Learning with Experience Replay [3.5823366350053325]
時間差学習(TD)は、強化学習(RL)において最も一般的なアルゴリズムの1つである。
本稿では,マルコフ雑音項の簡易分解を行い,経験的再生を伴うTD学習における有限時間誤差境界を提供する。
論文 参考訳(メタデータ) (2023-06-16T10:25:43Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。