論文の概要: Koopman-Assisted Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.02290v1
- Date: Mon, 4 Mar 2024 18:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:50:48.651863
- Title: Koopman-Assisted Reinforcement Learning
- Title(参考訳): クープマン支援強化学習
- Authors: Preston Rozwood, Edward Mehrez, Ludger Paehler, Wen Sun, Steven L.
Brunton
- Abstract要約: ベルマン方程式とその連続形式であるハミルトン・ヤコビ・ベルマン方程式(HJB)は、強化学習(RL)と制御理論においてユビキタスである。
本稿では,データ駆動型クープマン演算子と決定過程(MDP)の関連性について検討する。
これらの制約に対処する2つの新しいRLアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 8.812992091278668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bellman equation and its continuous form, the Hamilton-Jacobi-Bellman
(HJB) equation, are ubiquitous in reinforcement learning (RL) and control
theory. However, these equations quickly become intractable for systems with
high-dimensional states and nonlinearity. This paper explores the connection
between the data-driven Koopman operator and Markov Decision Processes (MDPs),
resulting in the development of two new RL algorithms to address these
limitations. We leverage Koopman operator techniques to lift a nonlinear system
into new coordinates where the dynamics become approximately linear, and where
HJB-based methods are more tractable. In particular, the Koopman operator is
able to capture the expectation of the time evolution of the value function of
a given system via linear dynamics in the lifted coordinates. By parameterizing
the Koopman operator with the control actions, we construct a ``Koopman
tensor'' that facilitates the estimation of the optimal value function. Then, a
transformation of Bellman's framework in terms of the Koopman tensor enables us
to reformulate two max-entropy RL algorithms: soft value iteration and soft
actor-critic (SAC). This highly flexible framework can be used for
deterministic or stochastic systems as well as for discrete or continuous-time
dynamics. Finally, we show that these Koopman Assisted Reinforcement Learning
(KARL) algorithms attain state-of-the-art (SOTA) performance with respect to
traditional neural network-based SAC and linear quadratic regulator (LQR)
baselines on four controlled dynamical systems: a linear state-space system,
the Lorenz system, fluid flow past a cylinder, and a double-well potential with
non-isotropic stochastic forcing.
- Abstract(参考訳): ベルマン方程式とその連続形式であるハミルトン・ヤコビ・ベルマン方程式(HJB)は、強化学習(RL)と制御理論においてユビキタスである。
しかし、これらの方程式は、高次元状態と非線形性を持つ系に対して急速に難解となる。
本稿では,データ駆動型クープマン演算子とマルコフ決定過程(MDP)の接続について検討し,これらの制約に対処する2つの新しいRLアルゴリズムを開発した。
我々はkoopman演算子の手法を利用して非線形系を、大まかに線形となる新しい座標系へ持ち上げ、hjbベースの手法をより扱いやすいものにする。
特に、クープマン作用素は、持ち上げられた座標の線形ダイナミクスを介して与えられた系の値関数の時間発展の期待を捉えることができる。
制御動作でクープマン作用素をパラメータ化することにより、最適値関数の推定を容易にする「クープマンテンソル」を構築する。
次に、クープマンテンソルによるベルマンのフレームワークの変換により、2つの最大エントロピーRLアルゴリズム(ソフトバリュー反復とソフトアクタークリティカル(SAC))を再構成することができる。
この非常に柔軟なフレームワークは、決定論的あるいは確率的システムだけでなく、離散的あるいは連続的なダイナミクスにも使用できる。
最後に,これらのKoopman Assisted Reinforcement Learning (KARL)アルゴリズムが,線形状態空間系,ロレンツ系,シリンダーを過ぎる流体流,非等方的確率強制を伴う二重井戸電位の4つの制御力学系上で,従来のニューラルネットワークベースSACおよび線形2次レギュレータ(LQR)ベースラインに対して,最先端(SOTA)性能を達成することを示す。
関連論文リスト
- Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approximations [0.0]
変分オートエンコーダ(VAE)はコンパクトな潜在表現を学習するための強力なフレームワークである。
ニューラルネットワークは過渡系力学の学習において優れている。
この研究は両者の強みを組み合わせることで、高速な代理モデルと調整可能な複雑さを生み出す。
論文 参考訳(メタデータ) (2024-10-14T05:45:52Z) - Deep Learning for Structure-Preserving Universal Stable Koopman-Inspired
Embeddings for Nonlinear Canonical Hamiltonian Dynamics [9.599029891108229]
シンプレクティック変換による正準非線形ハミルトン系に対する大域的線形化埋め込みの同定に着目する。
連続スペクトルを持つ系に対するクープマン作用素の欠点を克服するため、持ち上げ原理を適用し、大域的な立方体埋め込みを学習する。
我々は、コンパクトなシンプレクティック座標変換とそれに対応する単純な力学モデルを取得するためのディープラーニングの能力を実証する。
論文 参考訳(メタデータ) (2023-08-26T09:58:09Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Towards Data-driven LQR with KoopmanizingFlows [8.133902705930327]
本稿では,線形時間不変モデル(LTI)を連続時間非自律非線形力学のクラスで学習するための新しいフレームワークを提案する。
我々は、有意な持ち上げ座標を同時に学習しながら、制御において線形なクープマン作用素の有限表現を学習する。
論文 参考訳(メタデータ) (2022-01-27T17:02:03Z) - Supervised DKRC with Images for Offline System Identification [77.34726150561087]
現代の力学系はますます非線形で複雑なものになりつつある。
予測と制御のためのコンパクトで包括的な表現でこれらのシステムをモデル化するフレームワークが必要である。
本手法は,教師付き学習手法を用いてこれらの基礎関数を学習する。
論文 参考訳(メタデータ) (2021-09-06T04:39:06Z) - DySMHO: Data-Driven Discovery of Governing Equations for Dynamical
Systems via Moving Horizon Optimization [77.34726150561087]
本稿では,スケーラブルな機械学習フレームワークである移動水平最適化(DySMHO)による動的システムの発見について紹介する。
DySMHOは、基底関数の大きな辞書から基礎となる支配方程式を逐次学習する。
標準非線形力学系の例は、DySMHOが規則を正確に回復できることを示すために用いられる。
論文 参考訳(メタデータ) (2021-07-30T20:35:03Z) - Estimating Koopman operators for nonlinear dynamical systems: a
nonparametric approach [77.77696851397539]
Koopman演算子は非線形系の線形記述を可能にする数学的ツールである。
本稿では,その核となる部分を同一フレームワークのデュアルバージョンとして捉え,それらをカーネルフレームワークに組み込む。
カーネルメソッドとKoopman演算子との強力なリンクを確立し、Kernel関数を通じて後者を推定する。
論文 参考訳(メタデータ) (2021-03-25T11:08:26Z) - CKNet: A Convolutional Neural Network Based on Koopman Operator for
Modeling Latent Dynamics from Pixels [5.286010070038216]
そこで我々は,Koopman演算子(CKNet)に基づく畳み込みニューラルネットワーク(CNN)を提案し,生画素から潜時ダイナミクスを同定する。
実験では、32ディムの特定ダイナミクスが有効な120ステップを予測し、明確な画像を生成することが示されています。
論文 参考訳(メタデータ) (2021-02-19T23:29:08Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z) - Forecasting Sequential Data using Consistent Koopman Autoencoders [52.209416711500005]
クープマン理論に関連する新しい物理学に基づく手法が導入された。
本稿では,既存の作業の多くと異なり,前方・後方のダイナミクスを生かした新しいコンシスタント・クープマン・オートエンコーダモデルを提案する。
このアプローチの鍵となるのは、一貫性のある力学と関連するクープマン作用素との相互作用を探索する新しい解析である。
論文 参考訳(メタデータ) (2020-03-04T18:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。