論文の概要: A Pontryagin Perspective on Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.18100v1
- Date: Tue, 28 May 2024 12:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:48:53.610973
- Title: A Pontryagin Perspective on Reinforcement Learning
- Title(参考訳): 強化学習におけるポントリャーギンの展望
- Authors: Onno Eberhard, Claire Vernade, Michael Muehlebach,
- Abstract要約: 固定アクションシーケンスを代わりに学習するオープンループ強化学習のパラダイムを導入する。
1つの頑健なモデルベース法と2つのサンプル効率なモデルフリー法という3つの新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.56175346731332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has traditionally focused on learning state-dependent policies to solve optimal control problems in a closed-loop fashion. In this work, we introduce the paradigm of open-loop reinforcement learning where a fixed action sequence is learned instead. We present three new algorithms: one robust model-based method and two sample-efficient model-free methods. Rather than basing our algorithms on Bellman's equation from dynamic programming, our work builds on Pontryagin's principle from the theory of open-loop optimal control. We provide convergence guarantees and evaluate all methods empirically on a pendulum swing-up task, as well as on two high-dimensional MuJoCo tasks, demonstrating remarkable performance compared to existing baselines.
- Abstract(参考訳): 強化学習は伝統的に、クローズドループ方式で最適な制御問題を解決するための状態依存ポリシーの学習に重点を置いてきた。
本研究では,固定アクションシーケンスが学習されるオープンループ強化学習のパラダイムを紹介する。
1つの頑健なモデルベース法と2つのサンプル効率なモデルフリー法という3つの新しいアルゴリズムを提案する。
私たちの研究は、ベルマンの方程式を動的プログラミングから基礎づけるのではなく、オープンループ最適制御の理論からポントリャーギンの原理に基づいている。
我々は、振り子の振り上げタスクと2つの高次元の MuJoCo タスクに対して、収束保証を行い、全てのメソッドを経験的に評価し、既存のベースラインと比較して顕著な性能を示す。
関連論文リスト
- A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms [7.081523472610874]
最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
いくつかの古典的強化学習課題に対するアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-06-20T21:50:46Z) - Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse [15.134707391442236]
我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。
当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
論文 参考訳(メタデータ) (2022-06-28T02:56:12Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。