論文の概要: Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.12355v1
- Date: Mon, 17 Feb 2025 22:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:05:27.455351
- Title: Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning
- Title(参考訳): 深部強化学習を用いたソフトアクティベート型小型小型航空機のホバリング飛行
- Authors: Yi-Hsuan Hsiao, Wei-Tung Chen, Yun-Sheng Chang, Pulkit Agrawal, YuFeng Chen,
- Abstract要約: ソフトアクチュレートされた昆虫型マイクロエアロビー(IMAV)は、堅牢で計算効率のよい制御装置を設計する上で、ユニークな課題を生んでいる。
本稿では、システムの遅延と不確実性に対処する深層強化学習(RL)コントローラを設計する。
このコントローラは、それぞれ720 mgと850 mgの2つの異なる昆虫スケールの空中ロボットに展開する。
- 参考スコア(独自算出の注目度): 25.353235604712562
- License:
- Abstract: Soft-actuated insect-scale micro aerial vehicles (IMAVs) pose unique challenges for designing robust and computationally efficient controllers. At the millimeter scale, fast robot dynamics ($\sim$ms), together with system delay, model uncertainty, and external disturbances significantly affect flight performances. Here, we design a deep reinforcement learning (RL) controller that addresses system delay and uncertainties. To initialize this neural network (NN) controller, we propose a modified behavior cloning (BC) approach with state-action re-matching to account for delay and domain-randomized expert demonstration to tackle uncertainty. Then we apply proximal policy optimization (PPO) to fine-tune the policy during RL, enhancing performance and smoothing commands. In simulations, our modified BC substantially increases the mean reward compared to baseline BC; and RL with PPO improves flight quality and reduces command fluctuations. We deploy this controller on two different insect-scale aerial robots that weigh 720 mg and 850 mg, respectively. The robots demonstrate multiple successful zero-shot hovering flights, with the longest lasting 50 seconds and root-mean-square errors of 1.34 cm in lateral direction and 0.05 cm in altitude, marking the first end-to-end deep RL-based flight on soft-driven IMAVs.
- Abstract(参考訳): ソフトアクチュレートされた昆虫型マイクロエアロビー(IMAV)は、堅牢で計算効率のよい制御装置を設計する上で、ユニークな課題を生んでいる。
ミリスケールでは、高速ロボット力学(\sim$ms)とシステム遅延、モデル不確実性、および外乱が飛行性能に大きな影響を及ぼす。
本稿では、システムの遅延と不確実性に対処する深層強化学習(RL)コントローラを設計する。
このニューラルネットワーク(NN)コントローラを初期化するために、状態-動作再マッチングによる修正行動クローニング(BC)アプローチを提案する。
次に、近似ポリシー最適化(PPO)を適用して、RL中のポリシーを微調整し、性能を向上し、コマンドを平滑にする。
シミュレーションでは,修正BCはベースラインBCよりも平均報酬を著しく増加させ,PPOを用いたRLは飛行品質を改善し,指令変動を低減する。
このコントローラは、それぞれ720 mgと850 mgの2つの異なる昆虫スケールの空中ロボットに展開する。
ロボットは複数のゼロショットホバリング飛行を成功させ、最長50秒、ルート平均二乗誤差は横方向が1.34cm、高度が0.05cmであり、ソフト駆動のIMAVで初のエンド・ツー・エンドのRLベースの飛行となった。
関連論文リスト
- Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning [10.579847782542982]
本稿では,マルチエージェント強化学習を用いた時間最適マルチドローン飛行のための分散ポリシーネットワークを提案する。
飛行効率と衝突回避のバランスをとるために,最適化手法に着想を得たソフト衝突ペナルティを導入する。
大規模シミュレーションにより, 単流体系と比較して性能のトレードオフはわずかに小さいものの, 衝突速度が低い状態で, 最適に近い性能を維持していることがわかった。
論文 参考訳(メタデータ) (2024-09-25T08:09:52Z) - AirPilot: Interpretable PPO-based DRL Auto-Tuned Nonlinear PID Drone Controller for Robust Autonomous Flights [0.046873264197900916]
AirPilotは、非線形ディープ強化学習 (DRL) - プロポーショナル・インテグレーショナル・デリバティブ (PID) ドローン・コントローラである。
AirPilotコントローラは、従来のPID制御のシンプルさと有効性と、DRLの適応性、学習能力、最適化能力を組み合わせる。
Airpilotは、デフォルトのPX4 PID位置コントローラのナビゲーションエラーを90%削減し、微調整されたPIDコントローラのナビゲーション速度を21%改善する。
論文 参考訳(メタデータ) (2024-03-30T00:46:43Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Robust, High-Rate Trajectory Tracking on Insect-Scale Soft-Actuated
Aerial Robots with Deep-Learned Tube MPC [0.0]
サブグラムMAV (0.7 グラム) であるMIT SoftFly 上でのアジャイルで効率的な軌道追跡手法を提案する。
我々の戦略は、適応型姿勢制御器と、軌跡追跡堅牢管モデル予測制御器(RTMPC)を模倣する訓練されたニューラルネットワークポリシーを組み合わせたカスケード制御方式を用いている。
我々は,本手法を実験的に評価し,より困難な操作でもルート平均角誤差を1.8cm以下に抑え,従来の作業に比べて最大位置誤差を60%低減し,大きな外乱に対する堅牢性を実証した。
論文 参考訳(メタデータ) (2022-09-20T21:30:16Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - Motion Planning and Control for Multi Vehicle Autonomous Racing at High
Speeds [100.61456258283245]
本稿では,自律走行のための多層移動計画と制御アーキテクチャを提案する。
提案手法はダララのAV-21レースカーに適用され、楕円形のレーストラックで25$m/s2$まで加速試験された。
論文 参考訳(メタデータ) (2022-07-22T15:16:54Z) - Adapting Rapid Motor Adaptation for Bipedal Robots [73.5914982741483]
移動制御の急速な適応の最近の進歩を活用し、二足歩行ロボットで作業できるように拡張する。
A-RMAはモデルフリーRLを用いて微調整することで不完全外部推定器の基本方針を適応する。
シミュレーションにおいて,A-RMAはRLベースのベースラインコントローラやモデルベースコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-30T17:59:09Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Evolved neuromorphic radar-based altitude controller for an autonomous
open-source blimp [4.350434044677268]
本稿では,ロボット飛行船のためのSNNに基づく高度制御器を提案する。
また、SNNベースのコントローラアーキテクチャ、シミュレーション環境でネットワークをトレーニングするための進化的フレームワーク、現実とのギャップを改善するための制御戦略も提示する。
論文 参考訳(メタデータ) (2021-10-01T20:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。