Fugu-MT 論文翻訳(概要): Tutoring Reinforcement Learning via Feedback Control

論文の概要: Tutoring Reinforcement Learning via Feedback Control

arxiv url: http://arxiv.org/abs/2012.06863v1
Date: Sat, 12 Dec 2020 17:13:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-10 05:10:18.597884
Title: Tutoring Reinforcement Learning via Feedback Control
Title（参考訳）: フィードバック制御による教師強化学習
Authors: Francesco De Lellis, Giovanni Russo, Mario di Bernardo
Abstract要約: 制御教師付き強化学習(CTRL)アルゴリズムを導入する。学習プロセスを指導することで、学習率を大幅に削減できます。
参考スコア（独自算出の注目度）: 3.050919759387985
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce a control-tutored reinforcement learning (CTRL) algorithm. The idea is to enhance tabular learning algorithms by means of a control strategy with limited knowledge of the system model. By tutoring the learning process, the learning rate can be substantially reduced. We use the classical problem of stabilizing an inverted pendulum as a benchmark to numerically illustrate the advantages and disadvantages of the approach.
Abstract（参考訳）: 制御教師付き強化学習(CTRL)アルゴリズムを導入する。このアイデアは、システムモデルの知識が限られた制御戦略を用いて、表型学習アルゴリズムを強化することである。学習過程を学習することにより、学習率を大幅に削減することができる。逆振り子を安定化する古典的な問題をベンチマークとして、そのアプローチの利点と欠点を数値的に示す。

関連論文リスト

A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文参考訳（メタデータ） (2023-02-20T10:06:49Z)
CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文参考訳（メタデータ） (2022-12-02T17:59:43Z)
Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文参考訳（メタデータ） (2022-10-21T21:59:42Z)
Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-31T21:24:22Z)
Boosted Off-Policy Learning [21.042970740577648]
ログ化された盗聴フィードバックから外部政治学習を行うための最初のブースティングアルゴリズムを提案する。教師付き学習のための既存の強化手法とは異なり、我々のアルゴリズムはポリシーの期待される報酬の見積を直接最適化する。本稿では,教師付き学習に基礎学習者を還元する方法を示す。
論文参考訳（メタデータ） (2022-08-01T21:43:02Z)
Improving the Performance of Robust Control through Event-Triggered Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文参考訳（メタデータ） (2022-07-28T17:36:37Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Guided Variational Autoencoder for Disentanglement Learning [79.02010588207416]
本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。我々は、ガイド-VAEにおける教師なし戦略と教師なし戦略を設計し、バニラVAE上でのモデリングと制御能力の強化を観察する。
論文参考訳（メタデータ） (2020-04-02T20:49:15Z)
Model-Reference Reinforcement Learning Control of Autonomous Surface Vehicles with Uncertainties [1.7033108359337459]
提案した制御は,従来の制御手法と深層強化学習を組み合わせたものである。強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。従来の深層強化学習法と比較して,提案した学習に基づく制御は安定性を保証し,サンプル効率を向上することができる。
論文参考訳（メタデータ） (2020-03-30T22:02:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。