論文の概要: Continuous Deep Q-Learning with Simulator for Stabilization of Uncertain
Discrete-Time Systems
- arxiv url: http://arxiv.org/abs/2101.05640v1
- Date: Wed, 13 Jan 2021 10:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 08:02:48.755477
- Title: Continuous Deep Q-Learning with Simulator for Stabilization of Uncertain
Discrete-Time Systems
- Title(参考訳): 不確定離散時間系の安定化のためのシミュレータを用いた連続Q-Learning
- Authors: Junya Ikemoto and Toshimitsu Ushio
- Abstract要約: エージェントは最適な政策を学ぶために多くの経験を必要とし、探索中に危険な行動を決定できるかもしれない。
2段階からなる実用的な強化学習アルゴリズムを提案する。
連続深層q学習アルゴリズムを用いて,複数の仮想システムに対して最適なq関数を求める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applications of reinforcement learning (RL) to stabilization problems of real
systems are restricted since an agent needs many experiences to learn an
optimal policy and may determine dangerous actions during its exploration. If
we know a mathematical model of a real system, a simulator is useful because it
predicates behaviors of the real system using the mathematical model with a
given system parameter vector. We can collect many experiences more efficiently
than interactions with the real system. However, it is difficult to identify
the system parameter vector accurately. If we have an identification error,
experiences obtained by the simulator may degrade the performance of the
learned policy. Thus, we propose a practical RL algorithm that consists of two
stages. At the first stage, we choose multiple system parameter vectors. Then,
we have a mathematical model for each system parameter vector, which is called
a virtual system. We obtain optimal Q-functions for multiple virtual systems
using the continuous deep Q-learning algorithm. At the second stage, we
represent a Q-function for the real system by a linear approximated function
whose basis functions are optimal Q-functions learned at the first stage. The
agent learns the Q-function through interactions with the real system online.
By numerical simulations, we show the usefulness of our proposed method.
- Abstract(参考訳): 実システムの安定化問題に対する強化学習(RL)の適用は、エージェントが最適な政策を学ぶために多くの経験を必要とし、探索中に危険な行動を決定するため制限される。
実システムの数学的モデルを知っている場合、与えられたシステムパラメータベクトルを持つ数学的モデルを用いて実システムの振る舞いを述語するのでシミュレータは有用である。
実際のシステムとのインタラクションよりも、多くの経験を効率的に収集することができる。
しかし,システムパラメータベクトルを正確に同定することは困難である。
識別エラーが発生した場合、シミュレータによって得られた経験は、学習したポリシーのパフォーマンスを低下させる可能性がある。
そこで本研究では,2段階からなる実用的なRLアルゴリズムを提案する。
最初の段階では、複数のシステムパラメータベクトルを選択する。
次に,仮想システムと呼ばれる各システムパラメータベクトルの数学的モデルを構築する。
連続深層q学習アルゴリズムを用いて,複数の仮想システムに対して最適なq関数を求める。
第2段階では、基底関数が第1段階で学習された最適Q関数である線形近似関数により実システムのQ関数を表現する。
エージェントは実際のシステムとのインタラクションを通じてq関数を学習する。
数値シミュレーションにより,提案手法の有用性を示す。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Fast Block Linear System Solver Using Q-Learning Schduling for Unified
Dynamic Power System Simulations [2.1509980377118767]
タスクスケジューリングにQ-ラーニングに基づく新しい手法を用いる。
KLUより2~6倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-12T09:10:27Z) - Supervised DKRC with Images for Offline System Identification [77.34726150561087]
現代の力学系はますます非線形で複雑なものになりつつある。
予測と制御のためのコンパクトで包括的な表現でこれらのシステムをモデル化するフレームワークが必要である。
本手法は,教師付き学習手法を用いてこれらの基礎関数を学習する。
論文 参考訳(メタデータ) (2021-09-06T04:39:06Z) - Self-learning Emulators and Eigenvector Continuation [0.0]
我々は、自己学習エミュレーションと呼ばれる新しい機械学習アプローチを用いて、制約方程式のシステムを効率的に解くことに重点を置いている。
自己学習エミュレータ(セルフラーニングエミュレータ、英: self-learning emulator)は、ある種の制御パラメータにまたがる方程式のシステムを迅速に解くことができる能動的学習プロトコルである。
代数方程式、線形および非線形微分方程式、線形および非線形固有値問題の解系に対する自己学習エミュレータの今後の応用を想定する。
論文 参考訳(メタデータ) (2021-07-28T16:00:47Z) - Efficient time stepping for numerical integration using reinforcement
learning [0.15393457051344295]
機械学習とメタラーニングに基づくデータ駆動型タイムステッピング方式を提案する。
まず、1つまたは複数の基礎学習者(非滑らかまたはハイブリッドシステムの場合)はRLを使用して訓練されます。
次に、メタ学習者は(システムの状態に応じて)現在の状況に最適と思われる基礎学習者を選択する訓練を受ける。
論文 参考訳(メタデータ) (2021-04-08T07:24:54Z) - Linear embedding of nonlinear dynamical systems and prospects for
efficient quantum algorithms [74.17312533172291]
有限非線形力学系を無限線型力学系(埋め込み)にマッピングする方法を述べる。
次に、有限線型系 (truncation) による結果の無限線型系を近似するアプローチを検討する。
論文 参考訳(メタデータ) (2020-12-12T00:01:10Z) - Data-Efficient Learning for Complex and Real-Time Physical Problem
Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。
実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文 参考訳(メタデータ) (2020-11-14T02:03:08Z) - Fast Modeling and Understanding Fluid Dynamics Systems with
Encoder-Decoder Networks [0.0]
本研究では,有限体積シミュレータを用いて,高精度な深層学習に基づくプロキシモデルを効率的に教えることができることを示す。
従来のシミュレーションと比較して、提案したディープラーニングアプローチはより高速なフォワード計算を可能にする。
深層学習モデルの重要物理パラメータに対する感度を定量化することにより、インバージョン問題を大きな加速で解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-09T17:14:08Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。