論文の概要: Deep Q-learning: a robust control approach
- arxiv url: http://arxiv.org/abs/2201.08610v1
- Date: Fri, 21 Jan 2022 09:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:24:32.791783
- Title: Deep Q-learning: a robust control approach
- Title(参考訳): deep q-learning: 堅牢な制御アプローチ
- Authors: Bal\'azs Varga, Bal\'azs Kulcs\'ar, Morteza Haghir Chehreghani
- Abstract要約: ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 4.125187280299247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we place deep Q-learning into a control-oriented perspective
and study its learning dynamics with well-established techniques from robust
control. We formulate an uncertain linear time-invariant model by means of the
neural tangent kernel to describe learning. We show the instability of learning
and analyze the agent's behavior in frequency-domain. Then, we ensure
convergence via robust controllers acting as dynamical rewards in the loss
function. We synthesize three controllers: state-feedback gain scheduling
$\mathcal{H}_2$, dynamic $\mathcal{H}_\infty$, and constant gain
$\mathcal{H}_\infty$ controllers. Setting up the learning agent with a
control-oriented tuning methodology is more transparent and has
well-established literature compared to the heuristics in reinforcement
learning. In addition, our approach does not use a target network and
randomized replay memory. The role of the target network is overtaken by the
control input, which also exploits the temporal dependency of samples (opposed
to a randomized memory buffer). Numerical simulations in different OpenAI Gym
environments suggest that the $\mathcal{H}_\infty$ controlled learning performs
slightly better than Double deep Q-learning.
- Abstract(参考訳): 本稿では,深いQ-ラーニングを制御指向の視点に置き,その学習力学を頑健な制御から確立した手法を用いて研究する。
ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
そして、損失関数の動的報酬として機能するロバストコントローラによる収束を保証する。
我々は3つのコントローラを合成する: state-feedback gain scheduling $\mathcal{h}_2$, dynamic $\mathcal{h}_\infty$, constant gain $\mathcal{h}_\infty$ controllers。
制御指向チューニング手法による学習エージェントのセットアップは,強化学習のヒューリスティックよりも透明性が高く,文献の確立も良好である。
さらに,本手法では,ターゲットネットワークとランダムなリプレイメモリを使用しない。
ターゲットネットワークの役割は制御入力によって超過され、サンプルの時間依存性(ランダム化されたメモリバッファに反する)も活用される。
異なるOpenAI Gym環境における数値シミュレーションにより、$\mathcal{H}_\infty$制御学習は二重深度Q-ラーニングよりもわずかに優れていることが示唆された。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-02T17:59:43Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Online-Learning Deep Neuro-Adaptive Dynamic Inversion Controller for
Model Free Control [1.3764085113103217]
ニュートラル適応コントローラは、新しい重み更新法則に基づいて訓練されたディープニューラルネットワークを特徴とする実装である。
制御器は、非線形プラントを迅速に学習することができ、追従制御問題において優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-21T22:46:03Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。