論文の概要: Exploration by Random Distribution Distillation
- arxiv url: http://arxiv.org/abs/2505.11044v1
- Date: Fri, 16 May 2025 09:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.484392
- Title: Exploration by Random Distribution Distillation
- Title(参考訳): ランダム分布蒸留による探査
- Authors: Zhirui Fang, Kai Yang, Jian Tao, Jiafei Lyu, Lusong Li, Li Shen, Xiu Li,
- Abstract要約: textbfRandom textbfDistribution textbfDistillation (RDD) という新しい手法を提案する。
RDDは、通常の分布からターゲットネットワークの出力をサンプリングする。
RDDはカウントベースと予測エラーの両方のアプローチを効果的に統合することを示した。
- 参考スコア(独自算出の注目度): 28.675586715243437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration remains a critical challenge in online reinforcement learning, as an agent must effectively explore unknown environments to achieve high returns. Currently, the main exploration algorithms are primarily count-based methods and curiosity-based methods, with prediction-error methods being a prominent example. In this paper, we propose a novel method called \textbf{R}andom \textbf{D}istribution \textbf{D}istillation (RDD), which samples the output of a target network from a normal distribution. RDD facilitates a more extensive exploration by explicitly treating the difference between the prediction network and the target network as an intrinsic reward. Furthermore, by introducing randomness into the output of the target network for a given state and modeling it as a sample from a normal distribution, intrinsic rewards are bounded by two key components: a pseudo-count term ensuring proper exploration decay and a discrepancy term accounting for predictor convergence. We demonstrate that RDD effectively unifies both count-based and prediction-error approaches. It retains the advantages of prediction-error methods in high-dimensional spaces, while also implementing an intrinsic reward decay mode akin to the pseudo-count method. In the experimental section, RDD is compared with more advanced methods in a series of environments. Both theoretical analysis and experimental results confirm the effectiveness of our approach in improving online exploration for reinforcement learning tasks.
- Abstract(参考訳): エージェントは、高いリターンを達成するために、未知の環境を効果的に探索する必要がある。
現在、主な探索アルゴリズムは主にカウントベースの手法と好奇心に基づく手法であり、予測エラー法が顕著な例である。
本稿では,正規分布から対象ネットワークの出力をサンプリングする新しい手法として,textbf{R}andom \textbf{D}istribution \textbf{D}istillation (RDD)を提案する。
RDDは、予測ネットワークとターゲットネットワークの差を本質的な報奨として明示的に扱うことにより、より広範な探索を促進する。
さらに、所定の状態に対する対象ネットワークの出力にランダム性を導入し、それを正規分布からサンプルとしてモデル化することにより、固有報酬は、適切な探査崩壊を保証する擬数項と、予測子収束を考慮に入れた不一致項の2つの重要な要素によって境界づけられる。
RDDはカウントベースと予測エラーの両方のアプローチを効果的に統合することを示した。
高次元空間における予測エラー法の利点を保ちつつ、擬数法に似た本質的な報酬減衰モードを実装している。
実験セクションでは、RDDは一連の環境におけるより高度な手法と比較される。
理論的解析と実験結果の両方が、強化学習タスクにおけるオンライン探索の改善におけるアプローチの有効性を裏付けるものである。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Exploration and Anti-Exploration with Distributional Random Network Distillation [28.68459770494451]
本稿では,Random Network Distillation (RND)アルゴリズムにおける「結合不整合」問題について述べる。
この問題に対処するために、RNDの派生である分布式RND(DRND)を導入する。
本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-01-18T06:32:53Z) - Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。
複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。
提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文 参考訳(メタデータ) (2023-10-10T14:06:56Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。