論文の概要: A Deep Reinforcement Learning Approach towards Pendulum Swing-up Problem
based on TF-Agents
- arxiv url: http://arxiv.org/abs/2106.09556v1
- Date: Thu, 17 Jun 2021 14:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 22:20:35.722225
- Title: A Deep Reinforcement Learning Approach towards Pendulum Swing-up Problem
based on TF-Agents
- Title(参考訳): tf-agentsに基づく振り子スイングアップ問題に対する深層強化学習手法
- Authors: Yifei Bi, Xinyi Chen, Caihui Xiao
- Abstract要約: 深層Q学習エージェントでCartPoleをトレーニングするというアイデアに適応して、ポールが落ちないようにする有望な結果を見つけることができます。
環境とエージェントの相互作用から学習する強化学習能力は、最適な制御戦略を提供する。
- 参考スコア(独自算出の注目度): 6.000551438232908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting the idea of training CartPole with Deep Q-learning agent, we are
able to find a promising result that prevent the pole from falling down. The
capacity of reinforcement learning (RL) to learn from the interaction between
the environment and agent provides an optimal control strategy. In this paper,
we aim to solve the classic pendulum swing-up problem that making the learned
pendulum to be in upright position and balanced. Deep Deterministic Policy
Gradient algorithm is introduced to operate over continuous action domain in
this problem. Salient results of optimal pendulum are proved with increasing
average return, decreasing loss, and live video in the code part.
- Abstract(参考訳): 深層Q学習エージェントでCartPoleをトレーニングするというアイデアに適応して、ポールが落ちないようにする有望な結果を見つけることができます。
環境とエージェントの相互作用から学ぶための強化学習(rl)の能力は、最適な制御戦略を提供する。
本稿では,学習した振り子を直立位置にしバランスをとるという,古典的な振り子スイングアップ問題を解くことを目的とする。
深い決定論的ポリシーグラディエントアルゴリズムは、この問題において連続的なアクションドメインを操作するために導入された。
コード部分における平均戻り値の増加,損失の減少,ライブビデオの再生により,最適な振り子の有意な結果が証明された。
関連論文リスト
- Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - A Comparison of Reward Functions in Q-Learning Applied to a Cart
Position Problem [0.0]
強化学習は倒立振子問題と二重倒立振子問題を効果的に解いた。
強化学習では,報酬の最大化を目標として,エージェントが制御システムと対話することで学習する。
論文 参考訳(メタデータ) (2021-05-25T02:26:01Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Optimal Control-Based Baseline for Guided Exploration in Policy Gradient Methods [8.718494948845711]
本稿では, 深層強化学習におけるポリシー勾配法に対して, 最適制御ベースライン関数を提案する。
我々は,ロボット学習タスクのベースラインを検証し,ガイド付き探索におけるその効果を示す。
論文 参考訳(メタデータ) (2020-11-04T00:11:56Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。