論文の概要: Residual Feedback Learning for Contact-Rich Manipulation Tasks with
Uncertainty
- arxiv url: http://arxiv.org/abs/2106.04306v1
- Date: Tue, 8 Jun 2021 13:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:04:42.561389
- Title: Residual Feedback Learning for Contact-Rich Manipulation Tasks with
Uncertainty
- Title(参考訳): 不確実性を持つ接触型操作タスクに対する残留フィードバック学習
- Authors: Alireza Ranjbar, Ngo Anh Vien, Hanna Ziesche, Joschka Boedecker,
Gerhard Neumann
- Abstract要約: emphglsrplは強化学習(RL)で既存のコントローラを改善するための定式化を提供する
位置・方向の不確実性を考慮したコンタクトリッチペグ挿入作業において,本手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 22.276925045008788
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While classic control theory offers state of the art solutions in many
problem scenarios, it is often desired to improve beyond the structure of such
solutions and surpass their limitations. To this end, \emph{\gls{rpl}} offers a
formulation to improve existing controllers with reinforcement learning (RL) by
learning an additive "residual" to the output of a given controller. However,
the applicability of such an approach highly depends on the structure of the
controller. Often, internal feedback signals of the controller limit an RL
algorithm to adequately change the policy and, hence, learn the task. We
propose a new formulation that addresses these limitations by also modifying
the feedback signals to the controller with an RL policy and show superior
performance of our approach on a contact-rich peg-insertion task under position
and orientation uncertainty. In addition, we use a recent impedance control
architecture as control framework and show the difficulties of standard RPL.
Furthermore, we introduce an adaptive curriculum for the given task to
gradually increase the task difficulty in terms of position and orientation
uncertainty. A video showing the results can be found at
https://youtu.be/SAZm_Krze7U .
- Abstract(参考訳): 古典的な制御理論は、多くの問題シナリオにおいて最先端の解を提供するが、そのような解の構造を超えて改善し、その限界を超えることがしばしば望まれる。
この目的のために、 \emph{\gls{rpl}} は、与えられたコントローラの出力に付加的な「残留」を学習することで、強化学習(RL)で既存のコントローラを改善するための定式化を提供する。
しかし、そのようなアプローチの適用性は、コントローラの構造に大きく依存する。
しばしば、コントローラの内部フィードバック信号は、ポリシーを適切に変更するためにRLアルゴリズムを制限し、従ってタスクを学習する。
本稿では、RLポリシーで制御器にフィードバック信号を変更することで、これらの制約に対処する新しい定式化を提案し、位置および方向の不確実性の下での接触豊富なペグ挿入タスクに対するアプローチの優れた性能を示す。
さらに,最近のインピーダンス制御アーキテクチャを制御フレームワークとして使用し,標準rplの難しさを示す。
さらに,与えられた課題に対する適応カリキュラムを導入し,位置や方向の不確実性の観点からタスクの難易度を徐々に高めていく。
結果を示すビデオはhttps://youtu.be/SAZm_Krze7U で見ることができる。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - A Safe Reinforcement Learning Algorithm for Supervisory Control of Power
Plants [7.1771300511732585]
モデルフリー強化学習(RL)は、制御タスクのための有望なソリューションとして登場した。
本稿では,監督制御のための近似ポリシ最適化に基づく確率制約付きRLアルゴリズムを提案する。
本手法は, 原子力プラント設計における負荷追従操作において, 違反距離と違反率の最小化を実現するものである。
論文 参考訳(メタデータ) (2024-01-23T17:52:49Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文 参考訳(メタデータ) (2021-01-18T17:28:48Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。