論文の概要: $β$-DQN: Improving Deep Q-Learning By Evolving the Behavior
- arxiv url: http://arxiv.org/abs/2501.00913v1
- Date: Wed, 01 Jan 2025 18:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:10.845711
- Title: $β$-DQN: Improving Deep Q-Learning By Evolving the Behavior
- Title(参考訳): $β$-DQN: 振る舞いの進化による深いQ-Learningの改善
- Authors: Hongming Zhang, Fengshuo Bai, Chenjun Xiao, Chao Gao, Bo Xu, Martin Müller,
- Abstract要約: $beta$-DQNは、振る舞い関数で標準DQNを拡張する、シンプルで効率的な探索方法である。
適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。
単純かつ挑戦的な探索領域の実験は、$beta$-DQNが既存のベースラインメソッドより優れていることを示している。
- 参考スコア(独自算出の注目度): 41.13282452752521
- License:
- Abstract: While many sophisticated exploration methods have been proposed, their lack of generality and high computational cost often lead researchers to favor simpler methods like $\epsilon$-greedy. Motivated by this, we introduce $\beta$-DQN, a simple and efficient exploration method that augments the standard DQN with a behavior function $\beta$. This function estimates the probability that each action has been taken at each state. By leveraging $\beta$, we generate a population of diverse policies that balance exploration between state-action coverage and overestimation bias correction. An adaptive meta-controller is designed to select an effective policy for each episode, enabling flexible and explainable exploration. $\beta$-DQN is straightforward to implement and adds minimal computational overhead to the standard DQN. Experiments on both simple and challenging exploration domains show that $\beta$-DQN outperforms existing baseline methods across a wide range of tasks, providing an effective solution for improving exploration in deep reinforcement learning.
- Abstract(参考訳): 多くの高度な探索法が提案されているが、その一般化の欠如と高い計算コストにより、研究者は$\epsilon$-greedyのようなより単純な方法を好むことがしばしばある。
これに触発された $\beta$-DQN は、振る舞い関数 $\beta$ で標準 DQN を増強する単純で効率的な探索法である。
この関数は、各動作が各状態において取られた確率を推定する。
$\beta$を利用することで、状態-行動カバレッジと過大評価バイアス補正の間の探索のバランスをとる、多様なポリシーの集団を生成する。
適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。
$\beta$-DQNは実装が容易で、標準のDQNに最小限の計算オーバーヘッドを追加する。
単純かつ挑戦的な探索領域の実験は、$\beta$-DQNが既存のベースライン手法を幅広いタスクで上回り、深層強化学習における探索を改善する効果的なソリューションを提供することを示している。
関連論文リスト
- Improved Off-policy Reinforcement Learning in Biological Sequence Design [30.335775584871037]
我々は,GFlowNetsをトレーニングするための新しいオフライン検索手法である$delta$-Conservative Searchを紹介した。
キーとなる考え方は、パラメータ$delta$で制御される保守性を組み込んで、検索を信頼できるリージョンに制限することである。
提案手法は,既存の機械学習手法よりずっと優れており,ハイスコアシーケンスの発見が可能であることを示す。
論文 参考訳(メタデータ) (2024-10-06T12:22:32Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - Sampling Efficient Deep Reinforcement Learning through Preference-Guided
Stochastic Exploration [8.612437964299414]
我々は、Deep Q-network (DQN) のための選好誘導$epsilon$-greedy探索アルゴリズムを提案する。
選好誘導探索はDQNエージェントの多様な行動、すなわちより大きなQ値のアクションをより頻繁にサンプリングできるのに対して、より小さなQ値のアクションは依然として探索可能な機会を持ち、探索を促進することを示している。
論文 参考訳(メタデータ) (2022-06-20T08:23:49Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Adaptive Multi-Goal Exploration [118.40427257364729]
我々は、AdaGoalが$epsilon$-optimal goal-conditioned policyを学習する目的を達成するためにどのように使えるかを示す。
AdaGoalは、ゴール条件の深い強化学習のための既存の手法の高レベルなアルゴリズム構造に固定されている。
論文 参考訳(メタデータ) (2021-11-23T17:59:50Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。