論文の概要: Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator
- arxiv url: http://arxiv.org/abs/2304.04911v1
- Date: Tue, 11 Apr 2023 00:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 16:35:49.131122
- Title: Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator
- Title(参考訳): 直列弾性アクチュエータの力制御のための実時間モデルフリー深層補強学習
- Authors: Ruturaj Sambhus, Aydin Gokce, Stephen Welch, Connor W. Herron, and
Alexander Leonessa
- Abstract要約: 最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
- 参考スコア(独自算出の注目度): 56.11574814802912
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many state-of-the art robotic applications utilize series elastic actuators
(SEAs) with closed-loop force control to achieve complex tasks such as walking,
lifting, and manipulation. Model-free PID control methods are more prone to
instability due to nonlinearities in the SEA where cascaded model-based robust
controllers can remove these effects to achieve stable force control. However,
these model-based methods require detailed investigations to characterize the
system accurately. Deep reinforcement learning (DRL) has proved to be an
effective model-free method for continuous control tasks, where few works deal
with hardware learning. This paper describes the training process of a DRL
policy on hardware of an SEA pendulum system for tracking force control
trajectories from 0.05 - 0.35 Hz at 50 N amplitude using the Proximal Policy
Optimization (PPO) algorithm. Safety mechanisms are developed and utilized for
training the policy for 12 hours (overnight) without an operator present within
the full 21 hours training period. The tracking performance is evaluated
showing improvements of $25$ N in mean absolute error when comparing the first
18 min. of training to the full 21 hours for a 50 N amplitude, 0.1 Hz sinusoid
desired force trajectory. Finally, the DRL policy exhibits better tracking and
stability margins when compared to a model-free PID controller for a 50 N chirp
force trajectory.
- Abstract(参考訳): 多くの最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用している。
モデルフリーPID制御法は、ケースドモデルベースロバストコントローラがこれらの効果を除去して安定した力制御を実現するSEAの非線形性により不安定になりやすい。
しかし、これらのモデルに基づく手法は、システムを正確に特徴づけるために詳細な調査を必要とする。
深層強化学習(DRL)は,ハードウェア学習を扱う作業がほとんどない継続的制御タスクにおいて,効果的なモデルレス手法であることが証明されている。
本稿では、近位ポリシー最適化(ppo)アルゴリズムを用いて、50n振幅における0.05hzから0.35hzの追従力制御軌跡を追跡するシー振り子システムのハードウェアに関するdrlポリシーの訓練過程について述べる。
安全機構は、全21時間トレーニング期間内にオペレーターがいない状態で、12時間(夜間)にポリシーを訓練するために開発され、利用される。
追尾性能は,最初の18分を50N振幅のフル21時間,0.1Hzの正弦波所望の力軌跡と比較した場合の平均絶対誤差として25ドルNの改善を示す。
最後に、DRLポリシは50Nチャープ力軌跡のモデルフリーPIDコントローラと比較して、より良いトラッキングと安定性のマージンを示す。
関連論文リスト
- Obstacle Avoidance Deep Reinforcement Learning-Based Trajectory Planner
with Robust Low-Level Control for Robotic Manipulators [0.27624021966289597]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では,障害物のない深部強化学習(DRL)トラジェクトリプランナと,新しい低レベルかつ高レベルな自動制御戦略を統合することを提案する。
このアプローチは計算の複雑さを回避し、非反復的およびランダムな障害物回避タスクにも対処する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure
for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。
モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。
本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文 参考訳(メタデータ) (2023-07-03T19:35:52Z) - Turbulence control in plane Couette flow using low-dimensional neural
ODE-based models and deep reinforcement learning [0.0]
DManD-RL (data-driven manifold dynamics-RL) は,データ駆動型低次元モデルを生成する。
我々はRL制御エージェントを訓練し、数値シミュレーションで440倍のスピードアップを達成した。
エージェントは900時間以内の未確認DNSテストトラジェクトリの84%をラミナライズするポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-28T05:47:10Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Data-Efficient Deep Reinforcement Learning for Attitude Control of
Fixed-Wing UAVs: Field Experiments [0.37798600249187286]
DRLは、元の非線形力学を直接操作する固定翼UAVの姿勢制御をうまく学べることを示す。
我々は,UAVで学習したコントローラを飛行試験で展開し,最先端のArduPlane比例積分微分(PID)姿勢制御と同等の性能を示す。
論文 参考訳(メタデータ) (2021-11-07T19:07:46Z) - Learning to Control Direct Current Motor for Steering in Real Time via
Reinforcement Learning [2.3554584457413483]
実機と模擬環境の両方においてゴルフカートの位置制御にNFQアルゴリズムを用いる。
シミュレーションでは4分、実際のハードウェアでは11分で制御を成功させました。
論文 参考訳(メタデータ) (2021-07-31T03:24:36Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。