論文の概要: Deterministic Sequencing of Exploration and Exploitation for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.05408v1
- Date: Mon, 12 Sep 2022 16:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 14:19:46.148842
- Title: Deterministic Sequencing of Exploration and Exploitation for
Reinforcement Learning
- Title(参考訳): 強化学習のための探索と爆発の決定論的シークエンシング
- Authors: Piyush Gupta and Vaibhav Srivastava
- Abstract要約: モデルに基づくRL問題に対する探索と爆発の決定論的シークエンシング(DSEE)アルゴリズムを提案する。
調査中、DSEEは環境を調査し、期待される報酬と移行確率の見積を更新する。
利用中、システムダイナミクスの最新の推定値を用いて、高い確率でロバストなポリシーを得る。
- 参考スコア(独自算出の注目度): 5.381004207943597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Deterministic Sequencing of Exploration and Exploitation (DSEE)
algorithm with interleaving exploration and exploitation epochs for model-based
RL problems that aim to simultaneously learn the system model, i.e., a Markov
decision process (MDP), and the associated optimal policy. During exploration,
DSEE explores the environment and updates the estimates for expected reward and
transition probabilities. During exploitation, the latest estimates of the
system dynamics are used to obtain a robust policy with high probability. We
design the lengths of the exploration and exploitation epochs such that the
cumulative regret grows as a sub-linear function of time. We also discuss a
method for efficient exploration using multi-hop MDP and Metropolis-Hastings
algorithm to uniformly sample each state-action pair with high probability.
- Abstract(参考訳): 本稿では,システムモデル,すなわちマルコフ決定プロセス(MDP)と関連する最適ポリシーを同時に学習することを目的としたモデルベースRL問題に対して,探索と搾取をインターリーブするDSEE(Deterministic Sequencing of Exploration and Exploitation)アルゴリズムを提案する。
調査中、DSEEは環境を調査し、期待される報酬と移行確率の見積を更新する。
搾取中、システムダイナミクスの最新の見積もりは、高い確率で堅牢なポリシーを得るために使用される。
我々は,累積的後悔が時間のサブリニア関数として成長するように,探索と搾取期間の長さをデザインする。
また,マルチホップMDPとメトロポリス・ハスティングスアルゴリズムを用いて,各状態-作用対を高い確率で均一にサンプリングする方法についても検討した。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration [11.774563966512709]
我々は、未知市場を探索して最適なポートフォリオポリシーを直接学習するために、強化学習(RL)アプローチを採用する。
本稿では,結果の誤りを解析し,探索のレベルが学習方針にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-12-19T02:14:13Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling [4.132882666134921]
探査・探査を同時に検討する方法は、最適でないかもしれないトレードオフを制御するために、固定的またはアドホックな手段を同時に採用する。
我々は,BHEEMと呼ばれるベイズ的階層的アプローチを開発し,探査・探査のトレードオフを動的にバランスさせる。
論文 参考訳(メタデータ) (2023-04-16T01:40:48Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Learning-Augmented Model-Based Planning for Visual Exploration [8.870188183999854]
学習型モデルベースプランニングを用いた新しい探索手法を提案する。
室内シーンの視覚センシングとセマンティックマッピングの進歩が活用される。
提案手法は,2.1%,RLに基づく探査手法8.4%を網羅的に上回っている。
論文 参考訳(メタデータ) (2022-11-15T04:53:35Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Learning Interpretable Deep State Space Model for Probabilistic Time
Series Forecasting [98.57851612518758]
確率的時系列予測は、その歴史に基づいて将来の分布を推定する。
本稿では,非線形エミッションモデルと遷移モデルとをネットワークによってパラメータ化した,確率的時系列予測のための深部状態空間モデルを提案する。
実験では,我々のモデルが正確かつ鋭い確率予測を生成することを示す。
論文 参考訳(メタデータ) (2021-01-31T06:49:33Z) - Autonomous UAV Exploration of Dynamic Environments via Incremental
Sampling and Probabilistic Roadmap [0.3867363075280543]
インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
本手法は, 動的環境を安全に探索し, 探索時間, 経路長, 計算時間でベンチマークプランナーより優れている。
論文 参考訳(メタデータ) (2020-10-14T22:52:37Z) - Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework [28.430845498323745]
我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。
探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。
計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
論文 参考訳(メタデータ) (2020-06-11T05:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。