論文の概要: Survivable Hyper-Redundant Robotic Arm with Bayesian Policy Morphing
- arxiv url: http://arxiv.org/abs/2010.09964v1
- Date: Tue, 20 Oct 2020 02:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:31:11.682289
- Title: Survivable Hyper-Redundant Robotic Arm with Bayesian Policy Morphing
- Title(参考訳): ベイズ政策形態を持つ生存可能な超冗長ロボットアーム
- Authors: Sayyed Jaffar Ali Raza, Apan Dastider, Mingjie Lin
- Abstract要約: 我々は,ロボットエージェントが学習方針を自己修正できるような,ベイズ政策形態(BPM)の枠組みを定式化する。
本研究では,事前経験に偏った方針探索が,サンプリング要求の観点から学習効率を著しく向上させることを示す。
以上の結果から,ロボットアームは物理的損傷があっても,対象物の位置を正確に把握する機能を維持することができることがわかった。
- 参考スコア(独自算出の注目度): 1.2891210250935143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present a Bayesian reinforcement learning framework that
allows robotic manipulators to adaptively recover from random mechanical
failures autonomously, hence being survivable. To this end, we formulate the
framework of Bayesian Policy Morphing (BPM) that enables a robot agent to
self-modify its learned policy after the diminution of its maneuvering
dimensionality. We build upon existing actor-critic framework, and extend it to
perform policy gradient updates as posterior learning, taking past policy
updates as prior distributions. We show that policy search, in the direction
biased by prior experience, significantly improves learning efficiency in terms
of sampling requirements. We demonstrate our results on an 8-DOF robotic arm
with our algorithm of BPM, while intentionally disabling random joints with
different damage types like unresponsive joints, constant offset errors and
angular imprecision. Our results have shown that, even with physical damages,
the robotic arm can still successfully maintain its functionality to accurately
locate and grasp a given target object.
- Abstract(参考訳): 本稿では,ロボットマニピュレータがランダムな機械的故障から自律的に回復し,生存可能なベイズ強化学習フレームワークを提案する。
この目的のために,ロボットエージェントが操作次元の縮小後に学習方針を自己修正可能にするベイズ政策モーフィング(bpm)の枠組みを定式化する。
既存のアクター批判フレームワークを基盤として、過去のポリシー更新を事前分布として、後進学習としてポリシー勾配更新を実行するように拡張する。
本研究では,事前経験に偏った方針探索が,サンプリング要求の観点から学習効率を著しく向上させることを示す。
我々は,BPM アルゴリズムを用いた 8-DOF ロボットアームにおいて,応答性のない関節,一定オフセット誤差,角不整合などの異なる損傷タイプを持つランダムジョイントを意図的に無効化しながら,その結果を実証する。
以上の結果から,ロボットアームは物理的損傷があっても,対象物の位置を正確に把握する機能を維持することができることがわかった。
関連論文リスト
- Towards Real-World Efficiency: Domain Randomization in Reinforcement Learning for Pre-Capture of Free-Floating Moving Targets by Autonomous Robots [0.0]
本研究では,微小重力環境下でのロボットプレグラスピングの複雑な課題に対処するために,深層強化学習に基づく制御手法を提案する。
本手法は,ソフトアクター・クリティックな手法を用いて,自由な移動物体にグリッパーが十分に接近できるように,非政治強化学習の枠組みを取り入れたものである。
プレグラスピングのアプローチタスクを効果的に学習するために,エージェントに明確で洞察に富んだフィードバックを提供する報酬関数を開発した。
論文 参考訳(メタデータ) (2024-06-10T16:54:51Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Constrained Dynamic Movement Primitives for Safe Learning of Motor
Skills [25.06692536893836]
ロボット作業空間における制約満足度を実現するための制約付き動的運動プリミティブ(CDMP)を提案する。
異なる環境における異なるマニピュレータを用いた提案アルゴリズムの実装を示すビデオがここにある。
論文 参考訳(メタデータ) (2022-09-28T22:59:33Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Residual Learning from Demonstration: Adapting DMPs for Contact-rich
Manipulation [23.3501111853443]
そこで本研究では,ロボットがこのようなスキルを習得する方法を,Pig-in-holeのような挿入に応用した。
本稿では,動的運動プリミティブと強化学習を組み合わせたフレームワークであるResternal Learning from Demonstration (rLfD)を提案する。
論文 参考訳(メタデータ) (2020-08-18T00:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。