論文の概要: Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes
- arxiv url: http://arxiv.org/abs/2306.07741v1
- Date: Tue, 13 Jun 2023 12:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:53:17.450794
- Title: Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes
- Title(参考訳): 文脈マルコフ決定過程における政策勾配法の段階的学習
- Authors: Luca Sabbioni, Francesco Corda, Marcello Restelli
- Abstract要約: ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
- 参考スコア(独自算出の注目度): 35.889129338603446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy-based algorithms are among the most widely adopted techniques in
model-free RL, thanks to their strong theoretical groundings and good
properties in continuous action spaces. Unfortunately, these methods require
precise and problem-specific hyperparameter tuning to achieve good performance,
and tend to struggle when asked to accomplish a series of heterogeneous tasks.
In particular, the selection of the step size has a crucial impact on their
ability to learn a highly performing policy, affecting the speed and the
stability of the training process, and often being the main culprit for poor
results. In this paper, we tackle these issues with a Meta Reinforcement
Learning approach, by introducing a new formulation, known as meta-MDP, that
can be used to solve any hyperparameter selection problem in RL with contextual
processes. After providing a theoretical Lipschitz bound to the difference of
performance in different tasks, we adopt the proposed framework to train a
batch RL algorithm to dynamically recommend the most adequate step size for
different policies and tasks. In conclusion, we present an experimental
campaign to show the advantages of selecting an adaptive learning rate in
heterogeneous environments.
- Abstract(参考訳): ポリシーに基づくアルゴリズムは、モデルのないRLにおいて最も広く採用されている手法の1つである。
残念なことに、これらの手法は優れた性能を達成するために正確で問題固有のハイパーパラメータチューニングを必要とし、不均一なタスクの一連の達成を求められると苦労する傾向がある。
特に、ステップサイズの選択は、高いパフォーマンスのポリシーを学ぶ能力に決定的な影響を与え、トレーニングプロセスのスピードと安定性に影響を与え、多くの場合、不十分な結果の主要因となる。
本稿では,メタ強化学習のアプローチを用いて,rlにおけるハイパーパラメータ選択問題を解くためにメタmdpと呼ばれる新しい定式化を導入することで,これらの問題に取り組む。
異なるタスクのパフォーマンスの差に結びついた理論的リプシッツを提供した後、提案フレームワークを採用してバッチrlアルゴリズムをトレーニングし、異なるポリシーやタスクに対して最も適切なステップサイズを動的に推奨する。
そこで本研究では,異種環境における適応学習率の選択の利点を示す実験を行った。
関連論文リスト
- HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。
提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。
その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文 参考訳(メタデータ) (2022-11-01T21:33:46Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Episodic Policy Gradient Training [43.62408764384791]
エピソード政策グラディエントトレーニング(EPGT)
本稿では, 強調学習アルゴリズムのハイパーパラメータを最適化するために, エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
連続環境と離散環境の両方における実験結果から,提案手法を用いることにより,様々なポリシー勾配アルゴリズムの性能向上が期待できる。
論文 参考訳(メタデータ) (2021-12-03T11:15:32Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。