論文の概要: Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator
- arxiv url: http://arxiv.org/abs/2304.04911v1
- Date: Tue, 11 Apr 2023 00:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 16:35:49.131122
- Title: Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator
- Title(参考訳): 直列弾性アクチュエータの力制御のための実時間モデルフリー深層補強学習
- Authors: Ruturaj Sambhus, Aydin Gokce, Stephen Welch, Connor W. Herron, and
Alexander Leonessa
- Abstract要約: 最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
- 参考スコア(独自算出の注目度): 56.11574814802912
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many state-of-the art robotic applications utilize series elastic actuators
(SEAs) with closed-loop force control to achieve complex tasks such as walking,
lifting, and manipulation. Model-free PID control methods are more prone to
instability due to nonlinearities in the SEA where cascaded model-based robust
controllers can remove these effects to achieve stable force control. However,
these model-based methods require detailed investigations to characterize the
system accurately. Deep reinforcement learning (DRL) has proved to be an
effective model-free method for continuous control tasks, where few works deal
with hardware learning. This paper describes the training process of a DRL
policy on hardware of an SEA pendulum system for tracking force control
trajectories from 0.05 - 0.35 Hz at 50 N amplitude using the Proximal Policy
Optimization (PPO) algorithm. Safety mechanisms are developed and utilized for
training the policy for 12 hours (overnight) without an operator present within
the full 21 hours training period. The tracking performance is evaluated
showing improvements of $25$ N in mean absolute error when comparing the first
18 min. of training to the full 21 hours for a 50 N amplitude, 0.1 Hz sinusoid
desired force trajectory. Finally, the DRL policy exhibits better tracking and
stability margins when compared to a model-free PID controller for a 50 N chirp
force trajectory.
- Abstract(参考訳): 多くの最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用している。
モデルフリーPID制御法は、ケースドモデルベースロバストコントローラがこれらの効果を除去して安定した力制御を実現するSEAの非線形性により不安定になりやすい。
しかし、これらのモデルに基づく手法は、システムを正確に特徴づけるために詳細な調査を必要とする。
深層強化学習(DRL)は,ハードウェア学習を扱う作業がほとんどない継続的制御タスクにおいて,効果的なモデルレス手法であることが証明されている。
本稿では、近位ポリシー最適化(ppo)アルゴリズムを用いて、50n振幅における0.05hzから0.35hzの追従力制御軌跡を追跡するシー振り子システムのハードウェアに関するdrlポリシーの訓練過程について述べる。
安全機構は、全21時間トレーニング期間内にオペレーターがいない状態で、12時間(夜間)にポリシーを訓練するために開発され、利用される。
追尾性能は,最初の18分を50N振幅のフル21時間,0.1Hzの正弦波所望の力軌跡と比較した場合の平均絶対誤差として25ドルNの改善を示す。
最後に、DRLポリシは50Nチャープ力軌跡のモデルフリーPIDコントローラと比較して、より良いトラッキングと安定性のマージンを示す。
関連論文リスト
- DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure
for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。
モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。
本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文 参考訳(メタデータ) (2023-07-03T19:35:52Z) - Turbulence control in plane Couette flow using low-dimensional neural
ODE-based models and deep reinforcement learning [0.0]
DManD-RL (data-driven manifold dynamics-RL) は,データ駆動型低次元モデルを生成する。
我々はRL制御エージェントを訓練し、数値シミュレーションで440倍のスピードアップを達成した。
エージェントは900時間以内の未確認DNSテストトラジェクトリの84%をラミナライズするポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-28T05:47:10Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Data-Efficient Deep Reinforcement Learning for Attitude Control of
Fixed-Wing UAVs: Field Experiments [0.37798600249187286]
DRLは、元の非線形力学を直接操作する固定翼UAVの姿勢制御をうまく学べることを示す。
我々は,UAVで学習したコントローラを飛行試験で展開し,最先端のArduPlane比例積分微分(PID)姿勢制御と同等の性能を示す。
論文 参考訳(メタデータ) (2021-11-07T19:07:46Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。