論文の概要: Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models
- arxiv url: http://arxiv.org/abs/2504.05978v1
- Date: Tue, 08 Apr 2025 12:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:10.262866
- Title: Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models
- Title(参考訳): 境界不確実性モデルを用いた強化学習におけるスマート探索
- Authors: J. S. van Hulst, W. P. M. H. Heemels, D. J. Antunes,
- Abstract要約: 本稿では、事前モデル知識を用いて探索過程をガイドし、強化学習を高速化することを提案する。
我々は,Q-函数の最適Q-函数への収束に関する理論的保証を,探索政策のクラスとして提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Reinforcement learning (RL) is a powerful tool for decision-making in uncertain environments, but it often requires large amounts of data to learn an optimal policy. We propose using prior model knowledge to guide the exploration process to speed up this learning process. This model knowledge comes in the form of a model set to which the true transition kernel and reward function belong. We optimize over this model set to obtain upper and lower bounds on the Q-function, which are then used to guide the exploration of the agent. We provide theoretical guarantees on the convergence of the Q-function to the optimal Q-function under the proposed class of exploring policies. Furthermore, we also introduce a data-driven regularized version of the model set optimization problem that ensures the convergence of the class of exploring policies to the optimal policy. Lastly, we show that when the model set has a specific structure, namely the bounded-parameter MDP (BMDP) framework, the regularized model set optimization problem becomes convex and simple to implement. In this setting, we also show that we obtain finite-time convergence to the optimal policy under additional assumptions. We demonstrate the effectiveness of the proposed exploration strategy in a simulation study. The results indicate that the proposed method can significantly speed up the learning process in reinforcement learning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、不確実な環境で意思決定を行う強力なツールであるが、最適なポリシーを学ぶために大量のデータを必要とすることが多い。
本稿では,この学習過程を高速化するために,事前モデル知識を用いて探索プロセスを導くことを提案する。
このモデル知識は、真の遷移カーネルと報酬関数が属するモデルセットの形で得られる。
このモデルに対して最適化を行い、Q-関数の上下境界を求め、エージェントの探索を導出する。
我々は,Q-函数の最適Q-函数への収束に関する理論的保証を,探索政策のクラスとして提案する。
さらに,モデルセット最適化問題におけるデータ駆動型正規化バージョンを導入し,最適ポリシーに対する探索的ポリシーのクラスを収束させる。
最後に、モデルセットが特定の構造、すなわち境界パラメータ MDP (Bunded-parameter MDP) フレームワークを持つ場合、正規化モデルセット最適化問題は凸で実装が簡単になることを示す。
この設定では、追加の仮定の下で最適ポリシーに対する有限時間収束が得られることも示している。
シミュレーション研究において,提案手法の有効性を実証する。
その結果,提案手法は強化学習における学習過程を大幅に高速化できることがわかった。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。