論文の概要: Regret Bounds and Reinforcement Learning Exploration of EXP-based Algorithms
- arxiv url: http://arxiv.org/abs/2009.09538v3
- Date: Fri, 3 May 2024 23:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 03:57:05.069820
- Title: Regret Bounds and Reinforcement Learning Exploration of EXP-based Algorithms
- Title(参考訳): EXPアルゴリズムの規則境界と強化学習探索
- Authors: Mengfan Xu, Diego Klabjan,
- Abstract要約: バンディットと強化学習の両方において、報酬がスケールフリーであり、潜在的に非バウンドである、挑戦的な探索インセンティブ問題について検討する。
バンディットを探索するための複数のエージェントを統合するEXP型手法により,無拘束報酬の場合の探索のためのEXP4.PとEXP4-RLという新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.547006167704398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the challenging exploration incentive problem in both bandit and reinforcement learning, where the rewards are scale-free and potentially unbounded, driven by real-world scenarios and differing from existing work. Past works in reinforcement learning either assume costly interactions with an environment or propose algorithms finding potentially low quality local maxima. Motivated by EXP-type methods that integrate multiple agents (experts) for exploration in bandits with the assumption that rewards are bounded, we propose new algorithms, namely EXP4.P and EXP4-RL for exploration in the unbounded reward case, and demonstrate their effectiveness in these new settings. Unbounded rewards introduce challenges as the regret cannot be limited by the number of trials, and selecting suboptimal arms may lead to infinite regret. Specifically, we establish EXP4.P's regret upper bounds in both bounded and unbounded linear and stochastic contextual bandits. Surprisingly, we also find that by including one sufficiently competent expert, EXP4.P can achieve global optimality in the linear case. This unbounded reward result is also applicable to a revised version of EXP3.P in the Multi-armed Bandit scenario. In EXP4-RL, we extend EXP4.P from bandit scenarios to reinforcement learning to incentivize exploration by multiple agents, including one high-performing agent, for both efficiency and excellence. This algorithm has been tested on difficult-to-explore games and shows significant improvements in exploration compared to state-of-the-art.
- Abstract(参考訳): そこでは,実世界のシナリオによって引き起こされ,既存の作業と異なり,報酬がスケールフリーで,潜在的に非有界であるような,包括的および強化的学習における挑戦的な探索インセンティブ問題について検討する。
強化学習における過去の研究は、環境とのコストの高い相互作用を前提とするか、あるいは、潜在的に品質の低い局所的な最大値を求めるアルゴリズムを提案する。
EXP-type method that integrated multiple agent (experts) for exploration in bandits with the assumption that rewards are bounded, we propose new algorithm, EXP4.P and EXP4-RL for exploration in the unbounded reward case, and showed their effective in these new settings。
未拘束の報酬は、後悔は試行回数によって制限できないため、挑戦を招き、最適下腕の選択は無限の後悔につながる可能性がある。
具体的には、有界および非有界な線形および確率的文脈帯域におけるEXP4.Pの後悔の上界を確立する。
驚くことに、十分に有能な専門家であるEXP4.Pを1人含むことで、線形の場合、大域的最適性が達成できる。
この非有界報酬結果は、マルチアームバンディットシナリオにおけるEXP3.Pの改訂版にも適用される。
EXP4-RLでは,EXP4.Pを帯域幅のシナリオから強化学習に拡張し,複数のエージェントによる探索を促進させる。
このアルゴリズムは難解なゲームでテストされ、最先端のゲームと比較して探索の大幅な改善が示されている。
関連論文リスト
- Beyond Optimism: Exploration With Partially Observable Rewards [10.571972176725371]
強化学習(RL)の探索は依然としてオープンな課題である。
本稿では,既存手法の限界を克服し,最適方針への収束を保証する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-06-20T00:42:02Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Redeeming Intrinsic Rewards via Constrained Optimization [17.203887958936168]
最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索ボーナス(本質的な報酬または好奇心とも呼ばれる)を使って、エージェントが新しい国家を訪問する動機付けをする以前の作品
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
そこで本研究では,本質的な報酬の重要度を自動的に調整する制約付きポリシ最適化手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T18:49:26Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。