Fugu-MT 論文翻訳(概要): Exploration and Anti-Exploration with Distributional Random Network Distillation

論文の概要: Exploration and Anti-Exploration with Distributional Random Network Distillation

arxiv url: http://arxiv.org/abs/2401.09750v4
Date: Mon, 20 May 2024 02:12:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 23:40:18.922925
Title: Exploration and Anti-Exploration with Distributional Random Network Distillation
Title（参考訳）: 分散ランダムネットワーク蒸留による探索と反探索
Authors: Kai Yang, Jian Tao, Jiafei Lyu, Xiu Li,
Abstract要約: 本稿では,Random Network Distillation (RND)アルゴリズムにおける「結合不整合」問題について述べる。この問題に対処するために、RNDの派生である分布式RND(DRND)を導入する。本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。
参考スコア（独自算出の注目度）: 28.68459770494451
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exploration remains a critical issue in deep reinforcement learning for an agent to attain high returns in unknown environments. Although the prevailing exploration Random Network Distillation (RND) algorithm has been demonstrated to be effective in numerous environments, it often needs more discriminative power in bonus allocation. This paper highlights the "bonus inconsistency" issue within RND, pinpointing its primary limitation. To address this issue, we introduce the Distributional RND (DRND), a derivative of the RND. DRND enhances the exploration process by distilling a distribution of random networks and implicitly incorporating pseudo counts to improve the precision of bonus allocation. This refinement encourages agents to engage in more extensive exploration. Our method effectively mitigates the inconsistency issue without introducing significant computational overhead. Both theoretical analysis and experimental results demonstrate the superiority of our approach over the original RND algorithm. Our method excels in challenging online exploration scenarios and effectively serves as an anti-exploration mechanism in D4RL offline tasks. Our code is publicly available at https://github.com/yk7333/DRND.
Abstract（参考訳）: エージェントが未知の環境で高いリターンを得るための深層強化学習において、探索は依然として重要な課題である。探索的ランダムネットワーク蒸留(RND)アルゴリズムは、多くの環境で有効であることが証明されているが、しばしばボーナスアロケーションにおいてより識別力を必要とする。本稿では、RNDにおける「結合不整合」の問題を強調し、その主な限界を指摘する。この問題に対処するために、RNDの派生である分布式RND(DRND)を導入する。 DRNDは、ランダムネットワークの分布を蒸留し、疑似カウントを暗黙的に取り入れて、ボーナス割り当ての精度を向上させることにより、探索プロセスを強化する。この改良により、エージェントはより広範な探査に従事した。本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。理論的解析と実験結果は、元のRNDアルゴリズムよりも我々のアプローチの方が優れていることを示している。本手法は,D4RLオフラインタスクにおいて,オンライン探索シナリオの挑戦に優れ,探索防止機構として効果的に機能する。私たちのコードはhttps://github.com/yk7333/DRND.comで公開されています。

関連論文リスト

On the Equivalence of Random Network Distillation, Deep Ensembles, and Bayesian Inference [7.0479705178500085]
ランダムネットワーク蒸留は、固定されたランダムターゲットに対する予測誤差を通じて新規性を測定する技術である。実験的な効果はあるものの、RNDがどのような不確実性や、その見積もりが他のアプローチとどのように関係しているかはいまだに不明である。本稿では,ネットワーク幅の無限に制限されたニューラルネットワークカーネルフレームワーク内におけるRNDを解析することにより,これらの理論的接続の欠如を実証する。
論文参考訳（メタデータ） (2026-02-23T15:28:27Z)
Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文参考訳（メタデータ） (2026-01-08T15:56:44Z)
Exploration by Random Distribution Distillation [28.675586715243437]
textbfRandom textbfDistribution textbfDistillation (RDD) という新しい手法を提案する。 RDDは、通常の分布からターゲットネットワークの出力をサンプリングする。 RDDはカウントベースと予測エラーの両方のアプローチを効果的に統合することを示した。
論文参考訳（メタデータ） (2025-05-16T09:38:21Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。 EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。 EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-05T18:34:49Z)
Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。 D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-01-31T13:18:33Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
ADER:Adapting between Exploration and Robustness for Actor-Critic Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文参考訳（メタデータ） (2021-09-08T05:48:39Z)
MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文参考訳（メタデータ） (2021-06-18T17:57:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。