論文の概要: Off-Policy Deep Reinforcement Learning Algorithms for Handling Various
Robotic Manipulator Tasks
- arxiv url: http://arxiv.org/abs/2212.05572v1
- Date: Sun, 11 Dec 2022 18:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:03:16.478396
- Title: Off-Policy Deep Reinforcement Learning Algorithms for Handling Various
Robotic Manipulator Tasks
- Title(参考訳): 様々なロボットマニピュレータタスクを扱うオフポリシー深層強化学習アルゴリズム
- Authors: Altun Rzayev, Vahid Tavakol Aghaei
- Abstract要約: 本研究では,Fetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべて非政治的であり、ポリシーと値関数の両方を最適化することで、彼らの望ましい目標を達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to avoid conventional controlling methods which created obstacles
due to the complexity of systems and intense demand on data density, developing
modern and more efficient control methods are required. In this way,
reinforcement learning off-policy and model-free algorithms help to avoid
working with complex models. In terms of speed and accuracy, they become
prominent methods because the algorithms use their past experience to learn the
optimal policies. In this study, three reinforcement learning algorithms; DDPG,
TD3 and SAC have been used to train Fetch robotic manipulator for four
different tasks in MuJoCo simulation environment. All of these algorithms are
off-policy and able to achieve their desired target by optimizing both policy
and value functions. In the current study, the efficiency and the speed of
these three algorithms are analyzed in a controlled environment.
- Abstract(参考訳): システムの複雑化やデータ密度の強い需要による障害を発生させる従来の制御手法を避けるためには,より効率的な制御手法を開発する必要がある。
このようにして、強化学習のオフポリシーとモデルフリーなアルゴリズムは、複雑なモデルを扱うのを避けるのに役立つ。
速度と精度の面では、アルゴリズムが過去の経験を使って最適なポリシーを学ぶため、顕著な手法となる。
本研究では,MuJoCoシミュレーション環境におけるFetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべてオフポリシーであり、ポリシーとバリュー関数の両方を最適化することで、望ましい目標を達成することができる。
本研究では,これら3つのアルゴリズムの効率と速度を制御された環境で解析する。
関連論文リスト
- Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - A review of motion planning algorithms for intelligent robotics [0.8594140167290099]
本研究では,典型的な動き計画アルゴリズムの原理を調査し,分析する。
従来の計画アルゴリズムには、グラフ検索アルゴリズム、サンプリングベースアルゴリズム、補間曲線アルゴリズムなどがある。
教師付き学習アルゴリズムには、MSVM、LSTM、MCTS、CNNなどがある。
ポリシー勾配アルゴリズムには、ポリシー勾配法、アクタークリティカルアルゴリズム、A3C、A2C、DPG、DDPG、TRPO、PPOが含まれる。
論文 参考訳(メタデータ) (2021-02-04T02:24:04Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - A framework for reinforcement learning with autocorrelated actions [0.0]
ここでは、後続の時点における状態とランダムな要素に基づくアクションを生成するポリシーが検討されている。
ここでは、上記のポリシーを概ね最適化するアルゴリズムが導入された。
その効率性は4つの模擬学習制御問題に対して検証される。
論文 参考訳(メタデータ) (2020-09-10T11:23:09Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。