論文の概要: EUBRL: Epistemic Uncertainty Directed Bayesian Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.15405v1
- Date: Wed, 17 Dec 2025 12:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.990251
- Title: EUBRL: Epistemic Uncertainty Directed Bayesian Reinforcement Learning
- Title(参考訳): EUBRL: ベイジアン強化学習による先天的不確実性
- Authors: Jianfei Ma, Wee Sun Lee,
- Abstract要約: 疫学的な不確実性は、限られた知識による体系的な不確実性を反映している。
本稿では,ベイジアン強化学習アルゴリズムである$texttEUBRL$を提案する。
- 参考スコア(独自算出の注目度): 22.84927928856004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At the boundary between the known and the unknown, an agent inevitably confronts the dilemma of whether to explore or to exploit. Epistemic uncertainty reflects such boundaries, representing systematic uncertainty due to limited knowledge. In this paper, we propose a Bayesian reinforcement learning (RL) algorithm, $\texttt{EUBRL}$, which leverages epistemic guidance to achieve principled exploration. This guidance adaptively reduces per-step regret arising from estimation errors. We establish nearly minimax-optimal regret and sample complexity guarantees for a class of sufficiently expressive priors in infinite-horizon discounted MDPs. Empirically, we evaluate $\texttt{EUBRL}$ on tasks characterized by sparse rewards, long horizons, and stochasticity. Results demonstrate that $\texttt{EUBRL}$ achieves superior sample efficiency, scalability, and consistency.
- Abstract(参考訳): 未知と未知の境界では、エージェントは必然的に探索するか、活用するかというジレンマに直面します。
疫学的不確実性はそのような境界を反映し、限られた知識による体系的な不確実性を表す。
本稿では,ベイズ強化学習(RL)アルゴリズムである$\texttt{EUBRL}$を提案する。
このガイダンスは、推定誤差に起因するステップ毎の後悔を適応的に低減する。
我々は,無限水平割引MDPにおいて,十分表現力のある事前のクラスに対して,ほぼ最小限の後悔とサンプル複雑性の保証を確立する。
経験的に、スパース報酬、長い地平線、確率性を特徴とするタスクに対して$\texttt{EUBRL}$を評価した。
結果は、$\texttt{EUBRL}$が優れたサンプル効率、スケーラビリティ、一貫性を実現することを示す。
関連論文リスト
- Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Ensuring Safety in an Uncertain Environment: Constrained MDPs via Stochastic Thresholds [28.4976864705409]
本稿では,マルコフ決定過程(CMDP)をしきい値に制約し,未知かつ不確実な環境下での強化学習の安全性を目標とした。
我々は、不確実かつ動的環境との相互作用から採取したGrowingWindow推定器を利用して閾値を推定し、悲観的・楽観的閾値(SPOT)を設計する。
SPOTは悲観的および楽観的なしきい値設定の両方で強化学習を可能にする。
論文 参考訳(メタデータ) (2025-04-07T11:58:19Z) - Diffusion Policies for Risk-Averse Behavior Modeling in Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed
Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。
本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。
提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文 参考訳(メタデータ) (2020-10-24T10:44:02Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。