論文の概要: Improper Learning with Gradient-based Policy Optimization
- arxiv url: http://arxiv.org/abs/2102.08201v1
- Date: Tue, 16 Feb 2021 14:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:45:20.829865
- Title: Improper Learning with Gradient-based Policy Optimization
- Title(参考訳): 勾配に基づく政策最適化による不適切な学習
- Authors: Mohammadi Zaki, Avinash Mohan, Aditya Gopalan and Shie Mannor
- Abstract要約: 未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 62.50997487685586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider an improper reinforcement learning setting where the learner is
given M base controllers for an unknown Markov Decision Process, and wishes to
combine them optimally to produce a potentially new controller that can
outperform each of the base ones. We propose a gradient-based approach that
operates over a class of improper mixtures of the controllers. The value
function of the mixture and its gradient may not be available in closed-form;
however, we show that we can employ rollouts and simultaneous perturbation
stochastic approximation (SPSA) for explicit gradient descent optimization. We
derive convergence and convergence rate guarantees for the approach assuming
access to a gradient oracle. Numerical results on a challenging constrained
queueing task show that our improper policy optimization algorithm can
stabilize the system even when each constituent policy at its disposal is
unstable.
- Abstract(参考訳): 我々は,未知のマルコフ決定プロセスに対して学習者がmベースコントローラを与えられる不適切な強化学習設定を検討し,それらを最適に組み合わせて,ベースコントローラよりも優れる可能性のある新しいコントローラを創りだそうとする。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
混合値関数とその勾配はクローズド形式では利用できないかもしれないが, ロールアウトと同時摂動確率近似 (SPSA) を明示的な勾配降下最適化に用いることを示した。
勾配オラクルへのアクセスを仮定するアプローチに対して収束率と収束率の保証を導出する。
難解な制約付き待ち行列タスクの数値計算結果から,各構成ポリシーが不安定である場合でも,不適切なポリシー最適化アルゴリズムがシステム安定化が可能であることが示された。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Learning Stochastic Optimal Policies via Gradient Descent [17.9807134122734]
学習に基づく最適制御処理(SOC)を体系的に開発する。
本稿では, 微分方程式に対する随伴感度の導出について, 変分計算の直接適用により提案する。
本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-07T16:43:07Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。