論文の概要: Actor-Critic based Improper Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.09090v1
- Date: Tue, 19 Jul 2022 05:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:33:53.885982
- Title: Actor-Critic based Improper Reinforcement Learning
- Title(参考訳): アクタークリティカルに基づく即興強化学習
- Authors: Mohammadi Zaki, Avinash Mohan, Aditya Gopalan and Shie Mannor
- Abstract要約: 我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 61.430513757337486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider an improper reinforcement learning setting where a learner is
given $M$ base controllers for an unknown Markov decision process, and wishes
to combine them optimally to produce a potentially new controller that can
outperform each of the base ones. This can be useful in tuning across
controllers, learnt possibly in mismatched or simulated environments, to obtain
a good controller for a given target environment with relatively few trials.
Towards this, we propose two algorithms: (1) a Policy Gradient-based
approach; and (2) an algorithm that can switch between a simple Actor-Critic
(AC) based scheme and a Natural Actor-Critic (NAC) scheme depending on the
available information. Both algorithms operate over a class of improper
mixtures of the given controllers. For the first case, we derive convergence
rate guarantees assuming access to a gradient oracle. For the AC-based approach
we provide convergence rate guarantees to a stationary point in the basic AC
case and to a global optimum in the NAC case. Numerical results on (i) the
standard control theoretic benchmark of stabilizing an cartpole; and (ii) a
constrained queueing task show that our improper policy optimization algorithm
can stabilize the system even when the base policies at its disposal are
unstable.
- Abstract(参考訳): 我々は,未知のマルコフ決定プロセスに対して,学習者に$m$のベースコントローラを付与する不適切な強化学習設定を検討し,それらを最適に組み合わせ,ベースコントローラよりも優れる可能性のある新しいコントローラを作りたい。
これはコントローラー間のチューニングに役立ち、おそらくはミスマッチやシミュレーション環境で学習し、比較的少ない試行で与えられたターゲット環境に適したコントローラを得るのに役立ちます。
そこで本研究では,(1)ポリシーグラディエントに基づくアプローチ,(2)シンプルなアクター・クリティカル(AC)ベースのスキームと,利用可能な情報に依存するナチュラル・アクター・クリティカル(NAC)のスキームを切り替えるアルゴリズムを提案する。
どちらのアルゴリズムも、与えられたコントローラの不適切な混合のクラス上で動作する。
最初のケースでは、勾配オラクルへのアクセスを仮定する収束率の保証を導出する。
ACに基づくアプローチでは、基本的なACの場合の定常点とNACの場合の大域的最適点に収束率を保証する。
数値計算結果
(i)双極子を安定化する標準制御理論ベンチマーク、
(II) 制約付き待ち行列タスクは, 基本方針が不安定な場合でも, 不適切なポリシ最適化アルゴリズムがシステムを安定化できることを示す。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Zeroth-Order Actor-Critic [6.5158195776494]
本稿では,この2つの手法をオンラインアクター・クリティカル・アーキテクチャに統一するゼロ階アクター・クリティカル・アルゴリズム(ZOAC)を提案する。
提案手法は,ZOACが0次・1次ベースラインアルゴリズムより優れる,多種多様なポリシーを用いて,多種多様な連続制御ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2022-01-29T07:09:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。