論文の概要: Regret Bounds and Reinforcement Learning Exploration of EXP-based
Algorithms
- arxiv url: http://arxiv.org/abs/2009.09538v2
- Date: Tue, 31 May 2022 04:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:25:46.211428
- Title: Regret Bounds and Reinforcement Learning Exploration of EXP-based
Algorithms
- Title(参考訳): expに基づくアルゴリズムの後悔限界と強化学習探索
- Authors: Mengfan Xu and Diego Klabjan
- Abstract要約: EXPベースのアルゴリズムは、報酬が有界であるとして、確率的でないバンディット問題の探索にしばしば使用される。
提案するアルゴリズムは,EXP4を改良し,後悔の上限を確立することで,EXP4.Pという新しいアルゴリズムを提案する。
得られたアルゴリズムは難解なゲームでテストされ、最先端のゲームと比較して探索性の向上が示されている。
- 参考スコア(独自算出の注目度): 22.17126026244685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: EXP-based algorithms are often used for exploration in non-stochastic bandit
problems assuming rewards are bounded. We propose a new algorithm, namely
EXP4.P, by modifying EXP4 and establish its upper bound of regret in both
bounded and unbounded sub-Gaussian contextual bandit settings. The unbounded
reward result also holds for a revised version of EXP3.P. Moreover, we provide
a lower bound on regret that suggests no sublinear regret can be achieved given
short time horizon. All the analyses do not require bounded rewards compared to
classical ones. We also extend EXP4.P from contextual bandit to reinforcement
learning to incentivize exploration by multiple agents given black-box rewards.
The resulting algorithm has been tested on hard-to-explore games and it shows
an improvement on exploration compared to state-of-the-art.
- Abstract(参考訳): expベースのアルゴリズムは、報酬が有界であると仮定した非確率的バンディット問題の探索によく用いられる。
本研究では,exp4を改良し,境界付きおよび非有界なサブガウシアン・コンテクスト・バンディット設定における後悔の上限を確立する新しいアルゴリズム,exp4.pを提案する。
無拘束報酬の結果もEXP3.Pの改訂版である。
さらに,短い時間軸でサブリニアな後悔が得られないことを示唆する,後悔の限界を低くする。
すべての解析は古典的なものに比べて有界な報酬を必要としない。
また,コンテクストバンディットから強化学習までexp4.pを拡張し,ブラックボックス報酬を与えられた複数のエージェントによる探索をインセンティブ化する。
得られたアルゴリズムは難解なゲームでテストされ、最先端のゲームと比較して探索性の向上が示されている。
関連論文リスト
- Beyond Optimism: Exploration With Partially Observable Rewards [10.571972176725371]
強化学習(RL)の探索は依然としてオープンな課題である。
本稿では,既存手法の限界を克服し,最適方針への収束を保証する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-06-20T00:42:02Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Redeeming Intrinsic Rewards via Constrained Optimization [17.203887958936168]
最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索ボーナス(本質的な報酬または好奇心とも呼ばれる)を使って、エージェントが新しい国家を訪問する動機付けをする以前の作品
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
そこで本研究では,本質的な報酬の重要度を自動的に調整する制約付きポリシ最適化手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T18:49:26Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。