論文の概要: System stabilization with policy optimization on unstable latent manifolds
- arxiv url: http://arxiv.org/abs/2407.06418v1
- Date: Mon, 8 Jul 2024 21:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:54:43.114909
- Title: System stabilization with policy optimization on unstable latent manifolds
- Title(参考訳): 不安定潜在多様体上のポリシー最適化による系の安定化
- Authors: Steffen W. R. Werner, Benjamin Peherstorfer,
- Abstract要約: 提案手法は,データサンプルの少ない複雑な物理システムを安定化する。
実験により、提案手法はデータサンプルの少ない複雑な物理システムを安定化させることを示した。
- 参考スコア(独自算出の注目度): 0.5261718469769449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stability is a basic requirement when studying the behavior of dynamical systems. However, stabilizing dynamical systems via reinforcement learning is challenging because only little data can be collected over short time horizons before instabilities are triggered and data become meaningless. This work introduces a reinforcement learning approach that is formulated over latent manifolds of unstable dynamics so that stabilizing policies can be trained from few data samples. The unstable manifolds are minimal in the sense that they contain the lowest dimensional dynamics that are necessary for learning policies that guarantee stabilization. This is in stark contrast to generic latent manifolds that aim to approximate all -- stable and unstable -- system dynamics and thus are higher dimensional and often require higher amounts of data. Experiments demonstrate that the proposed approach stabilizes even complex physical systems from few data samples for which other methods that operate either directly in the system state space or on generic latent manifolds fail.
- Abstract(参考訳): 安定性は力学系の挙動を研究する際の基本的な要件である。
しかし、不安定が引き起こされてデータが無意味になる前に、短時間の地平線上でのデータのみを収集できるため、強化学習による動的システムの安定化は困難である。
この研究は、不安定な力学の潜在多様体上で定式化された強化学習手法を導入し、少数のデータサンプルから安定化ポリシーを訓練することができる。
不安定多様体は、安定化を保証するための学習ポリシーに必要な最低次元の力学を含むという意味で最小限である。
これは、全ての(安定で不安定な)系の力学を近似することを目的とした一般的な潜在多様体とは対照的であり、したがって高次元であり、しばしばより多くのデータを必要とする。
実験により、提案手法は、システム状態空間や一般的な潜在多様体上で直接動作する他の方法が失敗するデータサンプルから、複雑な物理系を安定化することを示した。
関連論文リスト
- Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Context-aware controller inference for stabilizing dynamical systems
from scarce data [0.0]
本研究は,データ不足から高次元力学系を安定化するためのデータ駆動制御手法を導入する。
提案手法は, 制御系を安定化させるためには, 制御系が不安定な力学のみにのみ局所的に作用する必要があるという観測に基づいている。
論文 参考訳(メタデータ) (2022-07-22T12:41:53Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - On the sample complexity of stabilizing linear dynamical systems from
data [0.0]
この研究は、線型力学系が次元(McMillan次数)$n$を持つ場合、安定化フィードバックコントローラを構築することができる状態から常に$n$が存在することを示す。
この発見は、任意の線形力学系が、力学のモデルを学ぶのに必要な最小の状態よりも少ない観測状態から安定化できることを示唆している。
論文 参考訳(メタデータ) (2022-02-28T16:25:00Z) - Joint Learning-Based Stabilization of Multiple Unknown Linear Systems [3.453777970395065]
そこで本研究では,すべてのシステムにおける安定化ポリシーを高速に学習するための,共同学習に基づく安定化アルゴリズムを提案する。
提案手法は, 極めて短時間で力学系のファミリーを安定化させるなど, 顕著に有効であることが示されている。
論文 参考訳(メタデータ) (2022-01-01T15:30:44Z) - Bayesian Algorithms Learn to Stabilize Unknown Continuous-Time Systems [0.0]
線形力学系は、不確実な力学を持つ植物の学習に基づく制御のための標準モデルである。
この目的のための信頼性の高い安定化手順は、不安定なデータから有効に学習し、有限時間でシステムを安定化させることができない。
本研究では,未知の連続時間線形系を安定化する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-30T15:31:35Z) - Recurrent Neural Network Controllers Synthesis with Stability Guarantees
for Partially Observed Systems [6.234005265019845]
本稿では、不確実な部分観測システムのための動的制御系として、リカレントニューラルネットワーク(RNN)の重要なクラスを考える。
本稿では、再パラメータ化空間における安定性条件を反復的に強制する計画的ポリシー勾配法を提案する。
数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-08T18:21:56Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。