論文の概要: Bootstrapping a DQN Replay Memory with Synthetic Experiences
- arxiv url: http://arxiv.org/abs/2002.01370v1
- Date: Tue, 4 Feb 2020 15:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:43:19.099494
- Title: Bootstrapping a DQN Replay Memory with Synthetic Experiences
- Title(参考訳): 合成経験によるDQNリプレイメモリのブートストラップ
- Authors: Wenzel Baron Pilar von Pilchau and Anthony Stein and J\"org H\"ahner
- Abstract要約: 学習者を支援するために,非決定論的離散環境において合成体験を生成するアルゴリズムを提案する。
The Interpolated Experience Replay are evaluate on the FrozenLake environment and we show that it can support the agent to learn faster and better than the classic version。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important component of many Deep Reinforcement Learning algorithms is the
Experience Replay which serves as a storage mechanism or memory of made
experiences. These experiences are used for training and help the agent to
stably find the perfect trajectory through the problem space. The classic
Experience Replay however makes only use of the experiences it actually made,
but the stored samples bear great potential in form of knowledge about the
problem that can be extracted. We present an algorithm that creates synthetic
experiences in a nondeterministic discrete environment to assist the learner.
The Interpolated Experience Replay is evaluated on the FrozenLake environment
and we show that it can support the agent to learn faster and even better than
the classic version.
- Abstract(参考訳): 多くのDeep Reinforcement Learningアルゴリズムの重要なコンポーネントは、生成したエクスペリエンスの記憶機構やメモリとして機能するExperience Replayである。
これらの経験はトレーニングに使われ、エージェントが問題空間を安定して完璧な軌道を見つけるのに役立ちます。
しかし、古典的な体験リプレイは実際に作った経験のみを使うが、保存されたサンプルは抽出できる問題の知識という形で大きな可能性を秘めている。
学習者を支援するために,非決定論的離散環境において合成経験を生成するアルゴリズムを提案する。
補間されたエクスペリエンスリプレイは、フリーズレイク環境で評価され、エージェントが従来のバージョンよりも早く、さらに良く学習できるようにサポートできることが示されている。
関連論文リスト
- Reflection of Episodes: Learning to Play Game from Expert and Self Experiences [12.422732989325725]
本稿では,専門家の経験と自己経験に基づくROE(Reflection of Episodes)フレームワークを提案する。
実験では,TextStarCraft IIにおける極めて難易度の高い条件下で,本手法がロボットを圧倒した。
論文 参考訳(メタデータ) (2025-02-19T02:53:43Z) - Synthetic Experience Replay [48.601879260071655]
エージェントの収集した経験を柔軟にアップサンプリングするための拡散に基づくアプローチであるSynthetic Experience Replay(SynthER)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると信じている。
論文 参考訳(メタデータ) (2023-03-12T09:10:45Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Saliency Guided Experience Packing for Replay in Continual Learning [6.417011237981518]
本研究では,経験再現のための新しいアプローチを提案し,過去の経験をサリエンシマップから選択する。
新しいタスクを学習している間、我々はこれらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。
論文 参考訳(メタデータ) (2021-09-10T15:54:58Z) - Reinforcement Learning with Videos: Combining Offline Observations with
Interaction [151.73346150068866]
強化学習は、ロボットが経験からスキルを得るための強力なフレームワークである。
人間のビデオは、広くて興味深い体験のソースとしてすぐに手に入る。
ビデオによる強化学習のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T17:15:48Z) - Lucid Dreaming for Experience Replay: Refreshing Past States with the
Current Policy [48.8675653453076]
我々は、エージェントの現在のポリシーを活用することで、リプレイ体験をリフレッシュできるフレームワークであるLucid Dreaming for Experience Replay(LiDER)を紹介した。
LiDERは6つのAtari 2600ゲームにおいて、ベースラインよりも一貫してパフォーマンスを改善している。
論文 参考訳(メタデータ) (2020-09-29T02:54:11Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Double Prioritized State Recycled Experience Replay [3.42658286826597]
本稿では,DPSR (Double-prioritized State-Recycled) 体験再生法を提案する。
我々は、この手法をDeep Q-Networks (DQN) で使用し、最先端の結果を得た。
論文 参考訳(メタデータ) (2020-07-08T08:36:41Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。