論文の概要: Policy Learning based on Deep Koopman Representation
- arxiv url: http://arxiv.org/abs/2305.15188v1
- Date: Wed, 24 May 2023 14:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:19:16.779396
- Title: Policy Learning based on Deep Koopman Representation
- Title(参考訳): ディープクープマン表現に基づく政策学習
- Authors: Wenjian Hao, Paulo C. Heredia, Bowen Huang, Zehui Lu, Zihao Liang,
Shaoshuai Mou
- Abstract要約: 本論文では,クープマン作用素理論と政策勾配法に基づく政策学習アルゴリズムを提案する。
未知の力学系を近似し、環境との相互作用を通じて収集された観測を用いて、最適政策を同時に探索する。
- 参考スコア(独自算出の注目度): 3.5427819182298292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a policy learning algorithm based on the Koopman operator
theory and policy gradient approach, which seeks to approximate an unknown
dynamical system and search for optimal policy simultaneously, using the
observations gathered through interaction with the environment. The proposed
algorithm has two innovations: first, it introduces the so-called deep Koopman
representation into the policy gradient to achieve a linear approximation of
the unknown dynamical system, all with the purpose of improving data
efficiency; second, the accumulated errors for long-term tasks induced by
approximating system dynamics are avoided by applying Bellman's principle of
optimality. Furthermore, a theoretical analysis is provided to prove the
asymptotic convergence of the proposed algorithm and characterize the
corresponding sampling complexity. These conclusions are also supported by
simulations on several challenging benchmark environments.
- Abstract(参考訳): 本稿では,未知の力学系を近似し,環境との相互作用を通じて収集された観測データを用いて,最適政策を同時に探索する,クープマン作用素理論とポリシー勾配アプローチに基づくポリシー学習アルゴリズムを提案する。
提案アルゴリズムには2つの革新がある: 1つは、未知の力学系の線形近似を達成するための政策勾配に、いわゆるディープ・クープマン表現を導入し、データ効率を改善することを目的として、次に、ベルマンの最適性原理を適用して、システム力学によって誘導される長期タスクの累積誤差を回避する。
さらに,提案アルゴリズムの漸近収束を証明し,対応するサンプリング複雑性を特徴付けるための理論的解析を行った。
これらの結論は、いくつかの挑戦的なベンチマーク環境のシミュレーションでも支持されている。
関連論文リスト
- Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm [29.978816372127085]
ニューラルネットワーク近似を用いたNatural actor-critic (NAC) の有限時間解析を行った。
ニューラルネットワーク,正規化,最適化技術の役割を特定し,優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T02:13:29Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - On the implementation of a global optimization method for mixed-variable
problems [0.30458514384586394]
このアルゴリズムは、グットマンの放射基底関数と、レジスとシューメーカーの計量応答面法に基づいている。
これら2つのアルゴリズムの一般化と改良を目的としたいくつかの修正を提案する。
論文 参考訳(メタデータ) (2020-09-04T13:36:56Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。