論文の概要: Value Bonuses using Ensemble Errors for Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.12375v1
- Date: Thu, 12 Feb 2026 20:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.732786
- Title: Value Bonuses using Ensemble Errors for Exploration in Reinforcement Learning
- Title(参考訳): エンサンブルエラーを用いた強化学習における価値ボーナス
- Authors: Abdul Wahab, Raksha Kumaraswamy, Martha White,
- Abstract要約: 本稿では,ランダムなアクション値関数(RQFs)のアンサンブルを保持する,アンサンブルエラー付き値ボーナス(VBE)と呼ばれる探索アルゴリズムを提案する。
VBEは、これらのRQFの推定における誤差を利用して、第一視の楽観性と深い探索を提供する価値ボーナスを設計する。
VBE はBootstrap DQN と 2 つの報奨ボーナスアプローチ (RND と ACB) を探索試験に用いるいくつかの古典的環境において上回っていることを示す。
- 参考スコア(独自算出の注目度): 15.766581379297193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimistic value estimates provide one mechanism for directed exploration in reinforcement learning (RL). The agent acts greedily with respect to an estimate of the value plus what can be seen as a value bonus. The value bonus can be learned by estimating a value function on reward bonuses, propagating local uncertainties around rewards. However, this approach only increases the value bonus for an action retroactively, after seeing a higher reward bonus from that state and action. Such an approach does not encourage the agent to visit a state and action for the first time. In this work, we introduce an algorithm for exploration called Value Bonuses with Ensemble errors (VBE), that maintains an ensemble of random action-value functions (RQFs). VBE uses the errors in the estimation of these RQFs to design value bonuses that provide first-visit optimism and deep exploration. The key idea is to design the rewards for these RQFs in such a way that the value bonus can decrease to zero. We show that VBE outperforms Bootstrap DQN and two reward bonus approaches (RND and ACB) on several classic environments used to test exploration and provide demonstrative experiments that it can scale easily to more complex environments like Atari.
- Abstract(参考訳): 最適値推定は、強化学習(RL)における方向探索の1つのメカニズムを提供する。
エージェントは、価値の見積に加えて、価値ボーナスと見なされるものに対して、丁寧に行動する。
報酬ボーナスの値関数を推定し、報酬に関する局所的な不確実性を伝播することにより、価値ボーナスを学ぶことができる。
しかし、このアプローチは、その状態とアクションからより高い報酬ボーナスを見た後のみ、遡及的にアクションの値ボーナスを増加させる。
このようなアプローチは、エージェントが初めて状態やアクションを訪問することを促さない。
本研究では,ランダムなアクション値関数(RQF)のアンサンブルを維持できるVBE(Value Bonuses with Ensemble error)と呼ばれる探索アルゴリズムを提案する。
VBEはこれらのRQFの推定における誤差を利用して、第一視の楽観性と深い探索を提供する価値ボーナスを設計する。
鍵となる考え方は、これらのRQFに対する報酬を、価値ボーナスをゼロに減らすことができるように設計することである。
VBE はBootstrap DQN と 2 つの報奨ボーナスアプローチ (RND と ACB) を探索試験に使用し,Atari のようなより複雑な環境に容易に拡張可能な実証実験を提供する。
関連論文リスト
- Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。
PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。
本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T09:43:57Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards [7.2933135237680595]
逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。
報酬関数は非マルコフ的であり、報酬機械(RM)のような現在の状態以上のものに依存する。
本稿では,専門家の行動からRMを直接推定するためのベイズIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T04:41:54Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Study of Global and Episodic Bonuses for Exploration in Contextual
MDPs [21.31346761487944]
エピソード間の共有構造がほとんどない場合には,エピソードボーナスが最も有効であることを示す。
また、この2つのボーナスを組み合わせることで、共有構造の違いによって、より堅牢なパフォーマンスが得られることもわかりました。
これにより、前の作業で使用されるMiniHackスイートから16タスクにまたがる新しい最先端のアートを設定するアルゴリズムが実現される。
論文 参考訳(メタデータ) (2023-06-05T20:45:30Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。