論文の概要: On Efficient Bayesian Exploration in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.02639v1
- Date: Thu, 03 Jul 2025 14:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.380988
- Title: On Efficient Bayesian Exploration in Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習における効率の良いベイズ探索について
- Authors: Alberto Caron, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 本研究では,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。
探索ボーナスは,環境のダイナミクスや報奨について十分な確証が得られたら,自然に疫学情報を得て,0に収束することを示す。
次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenge of data-efficient exploration in reinforcement learning by examining existing principled, information-theoretic approaches to intrinsic motivation. Specifically, we focus on a class of exploration bonuses that targets epistemic uncertainty rather than the aleatoric noise inherent in the environment. We prove that these bonuses naturally signal epistemic information gains and converge to zero once the agent becomes sufficiently certain about the environment's dynamics and rewards, thereby aligning exploration with genuine knowledge gaps. Our analysis provides formal guarantees for IG-based approaches, which previously lacked theoretical grounding. To enable practical use, we also discuss tractable approximations via sparse variational Gaussian Processes, Deep Kernels and Deep Ensemble models. We then outline a general framework - Predictive Trajectory Sampling with Bayesian Exploration (PTS-BE) - which integrates model-based planning with information-theoretic bonuses to achieve sample-efficient deep exploration. We empirically demonstrate that PTS-BE substantially outperforms other baselines across a variety of environments characterized by sparse rewards and/or purely exploratory tasks.
- Abstract(参考訳): 本研究は,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。
具体的には, 環境に固有のアレータリックノイズよりも, てんかんの不確実性に着目した探索ボーナスの類型に着目した。
これらのボーナスは、エージェントが環境のダイナミクスや報酬について十分に確信を持てば、自然に疫学的な情報を得、ゼロに収束することを示し、真の知識ギャップと探索を整合させる。
我々の分析は、これまで理論的な根拠に欠けていたIGベースのアプローチの正式な保証を提供する。
また, ガウス過程, ディープカーネル, ディープアンサンブルモデルによるトラクタブル近似についても検討した。
次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
PTS-BEは,スパース報酬や純粋探索タスクを特徴とする様々な環境において,他のベースラインを著しく上回っていることを実証的に実証した。
関連論文リスト
- Exploratory Diffusion Model for Unsupervised Reinforcement Learning [28.413426177336703]
非教師なし強化学習(URL)は、報酬のない環境で多様な状態やスキルを探索し、エージェントを事前訓練することを目的としている。
既存の手法は、探索されたデータをモデル化し、さらなる探索を促進するために本質的な報酬を設計する。
実験データに適合する拡散モデルの強い表現能力を利用する探索拡散モデル(ExDM)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Dynamic Bottleneck for Robust Self-Supervised Exploration [84.78836146128236]
本稿では,インフォメーション・ボトルネックの原理に基づく動的関連表現を実現する動的ボトルネック(DB)モデルを提案する。
さらに,DBモデルに基づくDB-bonusを提案する。
実験の結果,DBボーナスによる探索は,ノイズの多い環境での最先端の探査方法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-20T19:17:05Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。