論文の概要: Value of Information-Enhanced Exploration in Bootstrapped DQN
- arxiv url: http://arxiv.org/abs/2511.02969v1
- Date: Tue, 04 Nov 2025 20:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.236198
- Title: Value of Information-Enhanced Exploration in Bootstrapped DQN
- Title(参考訳): ブートストラップDQNにおける情報強化探索の価値
- Authors: Stergios Plataniotis, Charilaos Akasiadis, Georgios Chalkiadakis,
- Abstract要約: 本稿では,情報量(EVOI)の概念を,よく知られたBootstrapped DQNアルゴリズムフレームワークに統合する。
具体的には、情報の価値をBootstrapped DQNに学習することで期待される利益を取り入れた2つの新しいアルゴリズムを開発する。
複雑でスパースなアタリゲームにおける実験は、不確実性をよりよく活用しながら、性能の向上を実証している。
- 参考スコア(独自算出の注目度): 2.6173443955754903
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient exploration in deep reinforcement learning remains a fundamental challenge, especially in environments characterized by high-dimensional states and sparse rewards. Traditional exploration strategies that rely on random local policy noise, such as $\epsilon$-greedy and Boltzmann exploration methods, often struggle to efficiently balance exploration and exploitation. In this paper, we integrate the notion of (expected) value of information (EVOI) within the well-known Bootstrapped DQN algorithmic framework, to enhance the algorithm's deep exploration ability. Specifically, we develop two novel algorithms that incorporate the expected gain from learning the value of information into Bootstrapped DQN. Our methods use value of information estimates to measure the discrepancies of opinions among distinct network heads, and drive exploration towards areas with the most potential. We evaluate our algorithms with respect to performance and their ability to exploit inherent uncertainty arising from random network initialization. Our experiments in complex, sparse-reward Atari games demonstrate increased performance, all the while making better use of uncertainty, and, importantly, without introducing extra hyperparameters.
- Abstract(参考訳): 深層強化学習における効率的な探索は、特に高次元状態とスパース報酬を特徴とする環境において、依然として根本的な課題である。
$\epsilon$-greedy や Boltzmann といった、ランダムなローカルなポリシーノイズに依存する伝統的な探索戦略は、しばしば探索と搾取の効率よくバランスをとるのに苦労する。
本稿では,よく知られたBootstrapped DQNアルゴリズムフレームワークに情報量(EVOI)の概念を統合することにより,アルゴリズムの深部探索能力を高める。
具体的には、情報の価値をBootstrapped DQNに学習することで期待される利益を取り入れた2つの新しいアルゴリズムを開発する。
提案手法は,情報推定値を用いて,異なるネットワーク長間での意見の相違を計測し,最も可能性の高い地域を探索する。
我々は,ランダムネットワークの初期化による不確実性を利用した性能評価と性能評価を行った。
複雑でスパース・リワードなアタリゲームにおける我々の実験は、不確実性をよりよく活用しながら、さらに重要なことに、余分なハイパーパラメータを導入することなく、パフォーマンスを向上することを示した。
関連論文リスト
- On Efficient Bayesian Exploration in Model-Based Reinforcement Learning [0.24578723416255752]
本研究では,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。
探索ボーナスは,環境のダイナミクスや報奨について十分な確証が得られたら,自然に疫学情報を得て,0に収束することを示す。
次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
論文 参考訳(メタデータ) (2025-07-03T14:03:47Z) - MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Uncertainty quantification for deeponets with ensemble kalman inversion [0.8158530638728501]
本研究では,Ensemble Kalman Inversion (EKI) 手法を用いて,演算子学習のための効率的な不確実性定量化(UQ)のための新しい推論手法を提案する。
EKIはデリバティブフリーでノイズロバストで高度に並列化可能な特徴で知られており、物理インフォームドニューラルネットワークのUQに対するアドバンテージを実証している。
我々は、より大きなデータセットに対応するために、EKIのミニバッチ版をデプロイし、トレーニング段階での大きなデータセットによる計算需要を軽減します。
論文 参考訳(メタデータ) (2024-03-06T04:02:30Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。