論文の概要: On stabilizing reinforcement learning without Lyapunov functions
- arxiv url: http://arxiv.org/abs/2207.08730v1
- Date: Mon, 18 Jul 2022 16:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:17:27.310586
- Title: On stabilizing reinforcement learning without Lyapunov functions
- Title(参考訳): リアプノフ関数を持たない強化学習について
- Authors: Pavel Osinenko, Grigory Yaremenko, Georgiy Malaniya
- Abstract要約: リアプノフ関数を用いない安定化強化学習エージェントの構築方法について述べる。
制御理論において、安定化コントローラとリャプノフ函数の間には複雑な接続が存在する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning remains one of the major directions of the
contemporary development of control engineering and machine learning. Nice
intuition, flexible settings, ease of application are among the many perks of
this methodology. From the standpoint of machine learning, the main strength of
a reinforcement learning agent is its ability to ``capture" (learn) the optimal
behavior in the given environment. Typically, the agent is built on neural
networks and it is their approximation abilities that give rise to the above
belief. From the standpoint of control engineering, however, reinforcement
learning has serious deficiencies. The most significant one is the lack of
stability guarantee of the agent-environment closed loop. A great deal of
research was and is being made towards stabilizing reinforcement learning.
Speaking of stability, the celebrated Lyapunov theory is the de facto tool. It
is thus no wonder that so many techniques of stabilizing reinforcement learning
rely on the Lyapunov theory in one way or another. In control theory, there is
an intricate connection between a stabilizing controller and a Lyapunov
function. Employing such a pair seems thus quite attractive to design
stabilizing reinforcement learning. However, computation of a Lyapunov function
is generally a cumbersome process. In this note, we show how to construct a
stabilizing reinforcement learning agent that does not employ such a function
at all. We only assume that a Lyapunov function exists, which is a natural
thing to do if the given system (read: environment) is stabilizable, but we do
not need to compute one.
- Abstract(参考訳): 強化学習は、制御工学と機械学習の現代発展の主要な方向の1つである。
微妙な直感、フレキシブルな設定、アプリケーションの容易さは、この方法論の多くの要素のひとつです。
機械学習の立場から見ると、強化学習エージェントの主な強みは、与えられた環境における最適な動作を「獲得」(learn)する能力である。
通常、エージェントはニューラルネットワーク上に構築され、その近似能力によって上記の信念がもたらされる。
しかし,制御工学の観点からは,強化学習には深刻な欠陥がある。
最も重要なことは、エージェント環境閉ループの安定性保証の欠如である。
強化学習の安定化に向けた多くの研究が進められている。
安定性について言えば、有名なリャプノフ理論は事実上の道具である。
したがって、強化学習を安定化させる技術が、いずれにせよ、リャプノフ理論に依存しているのは当然である。
制御理論では、安定化コントローラとリャプノフ函数の間に複雑な接続が存在する。
このようなペアを採用することは、強化学習を安定化させる設計に非常に魅力的である。
しかし、リャプノフ関数の計算は一般に面倒な過程である。
本稿では,そのような機能を全く利用しない安定化強化学習エージェントの構築方法について述べる。
Lyapunov 関数が存在すると仮定するだけであり、これは与えられた系 (read: environment) が安定化可能であるならば当然のことだが、計算する必要はない。
関連論文リスト
- Critic as Lyapunov function (CALF): a model-free, stability-ensuring agent [0.0]
この研究は、Crytic As Lyapunov Function(CALF)と呼ばれる新しい強化学習エージェントを提示し、展示する。
CALFはモデルフリーであり、オンライン環境、言い換えれば動的システムの安定化を保証する。
その並行的なアプローチは、主にオフラインまたはモデルベース、例えば、モデル予測制御をエージェントに融合させるもののいずれかである。
論文 参考訳(メタデータ) (2024-09-15T21:27:44Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-09T04:23:26Z) - Enhancing Distributional Stability among Sub-populations [32.66329730287957]
分散シフト下での機械学習アルゴリズムの安定性向上は、OOD(Out-of-Distribution)一般化問題の中心にある。
本稿では,モデル安定性を向上する新しい安定リスク最小化法を提案する。
実験結果は直感と一致し,アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2022-06-07T03:29:25Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。