論文の概要: Bayesian Controller Fusion: Leveraging Control Priors in Deep
Reinforcement Learning for Robotics
- arxiv url: http://arxiv.org/abs/2107.09822v3
- Date: Mon, 3 Apr 2023 05:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 19:32:13.325660
- Title: Bayesian Controller Fusion: Leveraging Control Priors in Deep
Reinforcement Learning for Robotics
- Title(参考訳): Bayesian Controller Fusion:ロボットの深部強化学習における制御の活用
- Authors: Krishan Rana, Vibhavari Dasagi, Jesse Haviland, Ben Talbot, Michael
Milford and Niko S\"underhauf
- Abstract要約: 従来の手作りコントローラーの強みとモデルフリー深部強化学習(RL)を組み合わせたハイブリッド制御戦略を提案する。
BCFはロボティクス領域で成長し、多くのタスクに対して信頼性はあるが最適でない制御が優先されるが、スクラッチからのRLは安全であり、データ非効率である。
実世界におけるゼロショットsim-to-realセッティングへのBCFの適用性と,そのアウト・オブ・ディストリビューション状態に対処する能力を示す。
- 参考スコア(独自算出の注目度): 17.660913275007317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Bayesian Controller Fusion (BCF): a hybrid control strategy that
combines the strengths of traditional hand-crafted controllers and model-free
deep reinforcement learning (RL). BCF thrives in the robotics domain, where
reliable but suboptimal control priors exist for many tasks, but RL from
scratch remains unsafe and data-inefficient. By fusing uncertainty-aware
distributional outputs from each system, BCF arbitrates control between them,
exploiting their respective strengths. We study BCF on two real-world robotics
tasks involving navigation in a vast and long-horizon environment, and a
complex reaching task that involves manipulability maximisation. For both these
domains, simple handcrafted controllers exist that can solve the task at hand
in a risk-averse manner but do not necessarily exhibit the optimal solution
given limitations in analytical modelling, controller miscalibration and task
variation. As exploration is naturally guided by the prior in the early stages
of training, BCF accelerates learning, while substantially improving beyond the
performance of the control prior, as the policy gains more experience. More
importantly, given the risk-aversity of the control prior, BCF ensures safe
exploration and deployment, where the control prior naturally dominates the
action distribution in states unknown to the policy. We additionally show BCF's
applicability to the zero-shot sim-to-real setting and its ability to deal with
out-of-distribution states in the real world. BCF is a promising approach
towards combining the complementary strengths of deep RL and traditional
robotic control, surpassing what either can achieve independently. The code and
supplementary video material are made publicly available at
https://krishanrana.github.io/bcf.
- Abstract(参考訳): 本稿では,従来の手作りコントローラの強みとモデルフリー深部強化学習(RL)を組み合わせたハイブリッド制御戦略であるBayesian Controller Fusion(BCF)を紹介する。
BCFはロボティクス領域で成長し、多くのタスクに対して信頼性はあるが最適でない制御が優先されるが、スクラッチからのRLは安全でデータ非効率である。
各システムからの不確実性を認識した分布出力を融合することにより、BCFはそれらの間の制御を調停し、それぞれの強みを利用する。
我々は,広大かつ長期にわたる環境下でのナビゲーションと,マニピュラビリティの最大化を伴う複雑な到達タスクの2つの実世界のロボティクスタスクについてBCFを研究する。
これら2つの領域に対して、単純な手作りのコントローラが存在し、リスク・逆の方法でタスクを解決できるが、解析的モデリング、コントローラの誤校正、タスクの変動に制限を課した最適解を必ずしも示さない。
訓練の初期段階における事前の指導が自然に行われるため、BCFは学習を加速し、政策がより経験を積むにつれて、事前の制御性能よりも大幅に改善する。
さらに重要なことは、コントロールの事前のリスクの多様性を考えると、BCFは安全な探索と展開を保証する。
さらに、bcfのゼロショットsim-to-real設定の適用可能性と、実世界の分散状態を扱う能力を示す。
BCFは、深いRLと従来のロボット制御の相補的な強みを組み合わせるための、有望なアプローチである。
コードと追加ビデオはhttps://krishanrana.github.io/bcfで公開されている。
関連論文リスト
- A comparison of RL-based and PID controllers for 6-DOF swimming robots:
hybrid underwater object tracking [8.362739554991073]
本稿では,PIDコントローラの代替として,集中型深層Q-network(DQN)コントローラを用いた調査と評価を行う。
我々の主な焦点は、この遷移を水中物体追跡の特定のケースで説明することに集中している。
本実験は,Unityをベースとしたシミュレータで実施し,分離したPIDコントローラ上での集中型RLエージェントの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-29T23:14:15Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters [94.84709449845352]
近年のウェーブ・エナジー・コンバータ(WEC)は、発電を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のスプリングダンパよりも優れたマルチエージェント強化学習コントローラ(MARL)を提案する。
論文 参考訳(メタデータ) (2022-09-13T00:20:31Z) - Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on
Real-World Robots [17.710172337571617]
深層強化学習(RL)エージェントは、トレーニング環境と実行環境のミスマッチにより、現実世界にデプロイされた時にエラーを起こす傾向がある。
本稿では,RLポリシーと従来型の手作りコントローラの強みを組み合わせた,新しい不確実性対応デプロイメント戦略を提案する。
実世界の2つの連続制御タスクにおいて、BCFはスタンドアロンのポリシーとコントローラの両方に優れる有望な結果を示す。
論文 参考訳(メタデータ) (2021-12-10T02:13:01Z) - Optimization Algorithm for Feedback and Feedforward Policies towards
Robot Control Robust to Sensing Failures [1.7970523486905976]
両FB/FFポリシーを同時に最適化するための新しい最適化問題を提案する。
数値シミュレーションとロボット実験において,従来のRLと異なる学習法則を用いても,提案手法が安定して構成ポリシーを最適化できることを確認した。
論文 参考訳(メタデータ) (2021-04-01T10:41:42Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。