論文の概要: Opportunistic Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.13504v1
- Date: Mon, 24 Oct 2022 18:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:37:10.311941
- Title: Opportunistic Episodic Reinforcement Learning
- Title(参考訳): 機会論的エピソード強化学習
- Authors: Xiaoxiao Wang, Nader Bouacida, Xueying Guo, Xin Liu
- Abstract要約: 機会論的強化学習(英: opportunistic reinforcement learning)は、変分因子として知られる外部環境条件下で、最適な行動を選択することの後悔が変化する強化学習の新たな変種である。
我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。
我々のアルゴリズムは、探索をガイドするために変動係数に依存した楽観性を導入することで、強化学習のための探索・探索トレードオフのバランスをとる。
- 参考スコア(独自算出の注目度): 9.364712393700056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose and study opportunistic reinforcement learning - a
new variant of reinforcement learning problems where the regret of selecting a
suboptimal action varies under an external environmental condition known as the
variation factor. When the variation factor is low, so is the regret of
selecting a suboptimal action and vice versa. Our intuition is to exploit more
when the variation factor is high, and explore more when the variation factor
is low. We demonstrate the benefit of this novel framework for finite-horizon
episodic MDPs by designing and evaluating OppUCRL2 and OppPSRL algorithms. Our
algorithms dynamically balance the exploration-exploitation trade-off for
reinforcement learning by introducing variation factor-dependent optimism to
guide exploration. We establish an $\tilde{O}(HS \sqrt{AT})$ regret bound for
the OppUCRL2 algorithm and show through simulations that both OppUCRL2 and
OppPSRL algorithm outperform their original corresponding algorithms.
- Abstract(参考訳): 本稿では, 変動要因として知られる外部環境条件下で, 最適動作選択の後悔が変化する強化学習問題の新たな変種である, 機会論的強化学習を提案し, 研究する。
変動係数が低い場合、副最適作用を選択することを後悔するし、その逆もする。
我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。
我々は,OppUCRL2アルゴリズムとOppPSRLアルゴリズムを設計,評価することで,有限水平エピソードMDPのための新しいフレームワークの利点を実証する。
提案手法は,探索のガイドに変分因子依存的楽観主義を導入することで,強化学習のための探索-探索トレードオフを動的にバランスさせる。
我々は、OppUCRL2アルゴリズムに対して$\tilde{O}(HS \sqrt{AT})$ regret boundを定め、OppUCRL2アルゴリズムとOppPSRLアルゴリズムの両方が元の対応するアルゴリズムより優れていることを示すシミュレーションを通して示す。
関連論文リスト
- Dynamic deep-reinforcement-learning algorithm in Partially Observed
Markov Decision Processes [6.729108277517129]
本研究は、部分的に観測可能なマルコフ決定過程を解くために、アクションシーケンス包含の利点を示す。
開発したアルゴリズムは、異なる種類の外部乱れに対して、コントローラ性能の強化されたロバスト性を示した。
論文 参考訳(メタデータ) (2023-07-29T08:52:35Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Reinforcement Learning for Non-Stationary Markov Decision Processes: The
Blessing of (More) Optimism [25.20231604057821]
非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)について考察する。
まず, 信頼性拡張学習(SWUCRL2-CW) アルゴリズムを用いて, Sliding Window Up-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) を提案する。
SWUCRL2-CWアルゴリズムを適応的に調整し,同じダイナミックなリセット境界を実現するBORLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-24T15:40:21Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。