論文の概要: Exploration and Anti-Exploration with Distributional Random Network
Distillation
- arxiv url: http://arxiv.org/abs/2401.09750v1
- Date: Thu, 18 Jan 2024 06:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:45:34.092833
- Title: Exploration and Anti-Exploration with Distributional Random Network
Distillation
- Title(参考訳): 分散ランダムネットワーク蒸留による探索と反探索
- Authors: Kai Yang, Jian Tao, Jiafei Lyu, Xiu Li
- Abstract要約: 本稿では,Random Network Distillation (RND)アルゴリズムにおける不整合性の問題について述べる。
この問題に対処するために、RNDの派生である分布式RND(DRND)を導入する。
本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。
- 参考スコア(独自算出の注目度): 31.335862305202994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration remains a critical issue in deep reinforcement learning for an
agent to attain high returns in unknown environments. Although the prevailing
exploration Random Network Distillation (RND) algorithm has been demonstrated
to be effective in numerous environments, it often needs more discriminative
power in bonus allocation. This paper highlights the ``bonus inconsistency''
issue within RND, pinpointing its primary limitation. To address this issue, we
introduce the Distributional RND (DRND), a derivative of the RND. DRND enhances
the exploration process by distilling a distribution of random networks and
implicitly incorporating pseudo counts to improve the precision of bonus
allocation. This refinement encourages agents to engage in more extensive
exploration. Our method effectively mitigates the inconsistency issue without
introducing significant computational overhead. Both theoretical analysis and
experimental results demonstrate the superiority of our approach over the
original RND algorithm. Our method excels in challenging online exploration
scenarios and effectively serves as an anti-exploration mechanism in D4RL
offline tasks.
- Abstract(参考訳): エージェントが未知の環境で高いリターンを得るための深層強化学習において、探索は依然として重要な課題である。
探索的ランダムネットワーク蒸留(RND)アルゴリズムは、多くの環境で有効であることが証明されているが、しばしばボーナスアロケーションにおいてより識別力を必要とする。
本稿では,RND における 'bonus inconsistency' 問題に注目し,その限界を指摘する。
この問題に対処するために, RND の派生である Distributional RND (DRND) を導入する。
drndはランダムネットワークの分布を蒸留し、疑似カウントを暗黙的に組み込んでボーナス割り当ての精度を向上させることで探索プロセスを強化する。
この改良により、エージェントはより広範な探査に従事した。
本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。
理論解析と実験の結果から,本手法が従来の rnd アルゴリズムよりも優れていることが示された。
本手法は,D4RLオフラインタスクにおける探索防止機構として有効である。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。
本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-09-08T05:48:39Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。