論文の概要: Obstacle Avoidance Deep Reinforcement Learning-Based Trajectory Planner
with Robust Low-Level Control for Robotic Manipulators
- arxiv url: http://arxiv.org/abs/2402.02551v2
- Date: Tue, 6 Feb 2024 06:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:11:57.746033
- Title: Obstacle Avoidance Deep Reinforcement Learning-Based Trajectory Planner
with Robust Low-Level Control for Robotic Manipulators
- Title(参考訳): ロボットマニピュレータのロバスト低レベル制御による障害物回避深部強化学習型軌道プランナ
- Authors: Mehdi Heydari Shahna, Seyed Adel Alizadeh Kolagar, Jouni Mattila
- Abstract要約: ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では,障害物のない深部強化学習(DRL)トラジェクトリプランナと,新しい低レベルかつ高レベルな自動制御戦略を統合することを提案する。
このアプローチは計算の複雑さを回避し、非反復的およびランダムな障害物回避タスクにも対処する。
- 参考スコア(独自算出の注目度): 0.27624021966289597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In robotics, contemporary strategies are learning-based, characterized by a
complex black-box nature and a lack of interpretability, which may pose
challenges in ensuring stability and safety. To address these issues, we
propose integrating an obstacle-free deep reinforcement learning (DRL)
trajectory planner with a novel auto-tuning low- and joint-level control
strategy, all while actively engaging in the learning phase through
interactions with the environment. This approach circumvents the complexities
associated with computations while also addressing nonrepetitive and random
obstacle avoidance tasks. First, a model-free DRL agent to plan
velocity-bounded and obstacle-free motion is employed for a manipulator with
'n' degrees of freedom (DoF) in task space through joint-level reasoning. This
plan is then input into a robust subsystem-based adaptive controller, which
produces the necessary torques, while the Cuckoo Search Optimization (CSO)
algorithm enhances control gains to minimize the time required to reach, time
taken to stabilize, the maximum deviation from the desired value, and
persistent tracking error in the steady state. This approach guarantees that
position and velocity errors exponentially converge to zero in an unfamiliar
environment, despite unknown robotic manipulator modeling. Theoretical
assertions are validated through the presentation of simulation outcomes.
- Abstract(参考訳): ロボット工学における現代の戦略は、複雑なブラックボックスの性質と解釈可能性の欠如が特徴であり、安定性と安全性の確保に困難をもたらす可能性がある。
これらの課題に対処するために,障害物のない深層強化学習(DRL)トラジェクトリプランナを,環境との相互作用を通じて学習フェーズに積極的に関与しながら,新しい低レベル・共同レベルの制御戦略に統合することを提案する。
このアプローチは計算の複雑さを回避し、非反復的およびランダムな障害物回避タスクにも対処する。
まず,n自由度 (dof) を有するマニピュレータに対して,関節レベルの推論により速度境界および障害物フリー動作を計画するモデルフリーのdrlエージェントを用いる。
この計画は、必要なトルクを生成するロバストなサブシステムベースの適応コントローラに入力され、一方、Cuckoo Search Optimization (CSO)アルゴリズムは、到達に必要な時間、安定化に要する時間、所望値からの最大偏差、定常状態における持続的な追跡誤差を最小化するために制御ゲインを強化する。
このアプローチは、未知のロボットマニピュレータモデリングにもかかわらず、未知の環境で位置と速度の誤差が指数関数的にゼロに収束することを保証する。
理論的な主張はシミュレーション結果の提示を通じて検証される。
関連論文リスト
- Learning Variable Impedance Control for Aerial Sliding on Uneven
Heterogeneous Surfaces by Proprioceptive and Tactile Sensing [42.27572349747162]
本研究では,空中すべり作業に対する学習に基づく適応制御手法を提案する。
提案するコントローラ構造は,データ駆動制御とモデルベース制御を組み合わせたものである。
美術品間相互作用制御手法の微調整状態と比較して,追従誤差の低減と外乱拒否の改善を実現した。
論文 参考訳(メタデータ) (2022-06-28T16:28:59Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Towards Safe Control of Continuum Manipulator Using Shielded Multiagent
Reinforcement Learning [1.2647816797166165]
ロボットの制御は、MADQNフレームワークにおける1つのエージェント問題である1-DoFとして定式化され、学習効率が向上する。
シールドされたMADQNにより、ロボットは外部負荷下で、サブミリ単位のルート平均二乗誤差で点と軌道追跡を行うことができた。
論文 参考訳(メタデータ) (2021-06-15T05:55:05Z) - Imitation Learning for Robust and Safe Real-time Motion Planning: A
Contraction Theory Approach [9.35511513240868]
LAG-ROSは、境界外乱によって乱される安全臨界非線形システムのリアルタイムロバストな動作計画アルゴリズムである。
LAG-ROSはリアルタイム計算のためのより速い実行の速度のより高い制御性能そしてタスクの成功率を達成します。
論文 参考訳(メタデータ) (2021-02-25T03:47:15Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文 参考訳(メタデータ) (2020-11-09T20:49:54Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。