論文の概要: Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.10943v2
- Date: Wed, 18 Oct 2023 14:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 12:28:45.430535
- Title: Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning
- Title(参考訳): 自律レースにおける限界の達成--強化学習と最適制御
- Authors: Yunlong Song, Angel Romero, Matthias Mueller, Vladlen Koltun, Davide
Scaramuzza
- Abstract要約: ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
- 参考スコア(独自算出の注目度): 66.10854214036605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central question in robotics is how to design a control system for an agile
mobile robot. This paper studies this question systematically, focusing on a
challenging setting: autonomous drone racing. We show that a neural network
controller trained with reinforcement learning (RL) outperformed optimal
control (OC) methods in this setting. We then investigated which fundamental
factors have contributed to the success of RL or have limited OC. Our study
indicates that the fundamental advantage of RL over OC is not that it optimizes
its objective better but that it optimizes a better objective. OC decomposes
the problem into planning and control with an explicit intermediate
representation, such as a trajectory, that serves as an interface. This
decomposition limits the range of behaviors that can be expressed by the
controller, leading to inferior control performance when facing unmodeled
effects. In contrast, RL can directly optimize a task-level objective and can
leverage domain randomization to cope with model uncertainty, allowing the
discovery of more robust control responses. Our findings allowed us to push an
agile drone to its maximum performance, achieving a peak acceleration greater
than 12 times the gravitational acceleration and a peak velocity of 108
kilometers per hour. Our policy achieved superhuman control within minutes of
training on a standard workstation. This work presents a milestone in agile
robotics and sheds light on the role of RL and OC in robot control.
- Abstract(参考訳): ロボット工学における中心的な疑問は、アジャイルな移動ロボットの制御システムを設計する方法である。
本稿では,この課題を体系的に研究し,自律型ドローンレースという課題に焦点をあてる。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
次に, RL の成功に寄与する根本的要因と OC の制限について検討した。
本研究は, OCに対するRLの基本的な利点は, 目的を最適化することではなく, 目的を最適化することにある。
ocは問題を、インターフェースとして機能する軌道のような明示的な中間表現で計画と制御に分解する。
この分解はコントローラが表現できる動作の範囲を制限し、非モデル化効果に直面すると制御性能が低下する。
対照的に、RLはタスクレベルの目的を直接最適化することができ、ドメインのランダム化を利用してモデルの不確実性に対処し、より堅牢な制御応答の発見を可能にする。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
我々の方針は、標準ワークステーションでのトレーニングの数分で超人的制御を実現した。
この研究はアジャイルロボティクスにおけるマイルストーンを示し、ロボット制御におけるRLとOCの役割に光を当てている。
関連論文リスト
- Automatic Environment Shaping is the Next Frontier in RL [20.894840942319323]
多くのロボット学者は、夕方にタスクを持ったロボットを提示し、翌朝にそのタスクを解くことができるロボットを見つけることを夢見ている。
実際の強化学習は、挑戦的なロボティクスのタスクにおいて素晴らしいパフォーマンスを達成したが、そのタスクをRLに相応しい方法でセットアップするには、相当な人的努力が必要である。
政策最適化やその他のアイデアのアルゴリズムによる改善は、トレーニング環境を形作る際の主要なボトルネックを解決するために導かれるべきだ、という私たちの立場です。
論文 参考訳(メタデータ) (2024-07-23T05:22:29Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Active Reinforcement Learning for Robust Building Control [0.0]
強化学習(Reinforcement Learning, RL)は、Atariゲーム、Goのゲーム、ロボット制御、ビルド最適化で大きな成功を収めた、最適な制御のための強力なツールである。
教師なし環境設計 (UED) は, エージェントが特別に選抜された環境において, 学習を支援するための訓練を行う, この問題に対する解決策として提案されている。
この結果から,ActivePLRはエネルギー使用量を最小限に抑えつつ,建物制御の際の快適さを最大化しながら,最先端のUEDアルゴリズムより優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2023-12-16T02:18:45Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Autonomous Control of a Particle Accelerator using Deep Reinforcement
Learning [2.062593640149623]
本稿では,大規模線形粒子加速器の最適制御ポリシーを学習するためのアプローチについて述べる。
このフレームワークは、状態とアクション空間の表現にディープニューラルネットワークを使用するAIコントローラで構成されている。
最初の結果から,粒子線電流と分布の点で,人間よりも優れたレベルの性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-10-16T04:02:01Z) - AirCapRL: Autonomous Aerial Human Motion Capture using Deep
Reinforcement Learning [38.429105809093116]
自律型空中人体モーションキャプチャ(MoCap)のための深部強化学習(RL)に基づくマルチロボット生成コントローラを提案する。
視覚に基づくMoCapに焦点をあて,体ポーズの軌跡を推定し,複数の空飛ぶ車を用いて1人の動く人物を形作る。
論文 参考訳(メタデータ) (2020-07-13T12:30:31Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。