論文の概要: CT-DQN: Control-Tutored Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.01343v1
- Date: Fri, 2 Dec 2022 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 18:00:29.535139
- Title: CT-DQN: Control-Tutored Deep Reinforcement Learning
- Title(参考訳): CT-DQN:制御学習による深部強化学習
- Authors: Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi,
Mario di Bernardo
- Abstract要約: Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 4.395396671038298
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the major challenges in Deep Reinforcement Learning for control is the
need for extensive training to learn the policy. Motivated by this, we present
the design of the Control-Tutored Deep Q-Networks (CT-DQN) algorithm, a Deep
Reinforcement Learning algorithm that leverages a control tutor, i.e., an
exogenous control law, to reduce learning time. The tutor can be designed using
an approximate model of the system, without any assumption about the knowledge
of the system's dynamics. There is no expectation that it will be able to
achieve the control objective if used stand-alone. During learning, the tutor
occasionally suggests an action, thus partially guiding exploration. We
validate our approach on three scenarios from OpenAI Gym: the inverted
pendulum, lunar lander, and car racing. We demonstrate that CT-DQN is able to
achieve better or equivalent data efficiency with respect to the classic
function approximation solutions.
- Abstract(参考訳): 制御のための深層強化学習における大きな課題の1つは、ポリシーを学ぶための広範なトレーニングの必要性である。
そこで本研究では,制御チュータ,すなわち外因性制御則を活用した深層強化学習アルゴリズムであるct-dqnアルゴリズムの設計を行い,学習時間を短縮する。
チューターはシステムの動力学に関する知識を前提にすることなく、システムの近似モデルを用いて設計することができる。
単独で使用すれば、制御目標を達成することは期待できない。
学習中、チューターは時折行動を示し、部分的に探検を導く。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
我々は,CT-DQNが従来の関数近似解に対して,より優れたあるいは同等のデータ効率を実現することができることを示した。
関連論文リスト
- Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management [8.08366903467967]
我々は、選択に基づくネットワーク収益管理を用いた強化学習フレームワークを強化制御に適用する。
ジャンプポイントによって生成されたサンプルパスの固有な離散化を利用することで、事前に時間的地平線を識別する必要がないことを示す。
論文 参考訳(メタデータ) (2024-06-08T05:27:01Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Tracking Control for a Spherical Pendulum via Curriculum Reinforcement
Learning [27.73555826776087]
強化学習(RL)は、データから純粋に非自明なロボット制御法を学習することを可能にする。
本稿では,大規模並列化シミュレーションに基づいてRLでキュリキュラを自動構築するアルゴリズムを提案する。
非線形トラッキングタスクに対する状態推定と制御を共同で学習するカリキュラムRLの可能性を示す。
論文 参考訳(メタデータ) (2023-09-25T12:48:47Z) - Reinforcement Learning-Based Control of CrazyFlie 2.X Quadrotor [0.0]
プロジェクトの目的は、PIDのような古典的な制御アルゴリズムと現代の強化学習アルゴリズムの相乗効果を検討することである。
第一の目的は、強化学習戦略を用いたPIDチューニングを行うことである。
第二の目的は、灯台位置決めシステムを統合することにより、学習を活用してナビゲーションの制御を実装することである。
論文 参考訳(メタデータ) (2023-06-06T18:29:10Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Deep Q-learning: a robust control approach [4.125187280299247]
ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-01-21T09:47:34Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。