論文の概要: Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation
- arxiv url: http://arxiv.org/abs/2404.04219v1
- Date: Fri, 5 Apr 2024 17:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:35:54.844033
- Title: Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation
- Title(参考訳): ソフトハンドイン・ハンドマニピュレーションのための強化学習型制御器の継続的な政策拡張
- Authors: Lanpei Li, Enrico Donato, Vincenzo Lomonaco, Egidio Falotico,
- Abstract要約: ソフトロボットハンドは、物体の握りと操作中に柔軟性と適応性を提供する。
我々は,手動操作のための多目的制御器を取得するための連続ポリシー蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.601529531526852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dexterous manipulation, often facilitated by multi-fingered robotic hands, holds solid impact for real-world applications. Soft robotic hands, due to their compliant nature, offer flexibility and adaptability during object grasping and manipulation. Yet, benefits come with challenges, particularly in the control development for finger coordination. Reinforcement Learning (RL) can be employed to train object-specific in-hand manipulation policies, but limiting adaptability and generalizability. We introduce a Continual Policy Distillation (CPD) framework to acquire a versatile controller for in-hand manipulation, to rotate different objects in shape and size within a four-fingered soft gripper. The framework leverages Policy Distillation (PD) to transfer knowledge from expert policies to a continually evolving student policy network. Exemplar-based rehearsal methods are then integrated to mitigate catastrophic forgetting and enhance generalization. The performance of the CPD framework over various replay strategies demonstrates its effectiveness in consolidating knowledge from multiple experts and achieving versatile and adaptive behaviours for in-hand manipulation tasks.
- Abstract(参考訳): 多指のロボットハンドによってしばしば促進されるデクサラスな操作は、現実世界のアプリケーションにしっかりと影響を与えている。
ソフトロボットハンドは、その適合性から、物体の握りと操作時の柔軟性と適応性を提供する。
しかし、特に指の調整のための制御開発において、利点は課題を生んでいる。
強化学習(Reinforcement Learning, RL)は、オブジェクト固有の手動操作ポリシーを訓練するために用いられるが、適応性と一般化性は制限される。
本研究では,4本の指の柔らかいグリップ内で異なる物体の形状と大きさを回転させるために,手動操作のための多目的コントローラを取得するためのCPD(Continuous Policy Distillation)フレームワークを提案する。
このフレームワークは政策蒸留(PD)を利用して、専門家の政策から継続的に進化する学生政策ネットワークに知識を伝達する。
典型的なリハーサル法は、破滅的な忘れを緩和し、一般化を促進するために統合される。
様々なリプレイ戦略に対するCDDフレームワークの性能は、複数の専門家の知識を集約し、手作業における多目的かつ適応的な行動を実現する上で、その効果を示す。
関連論文リスト
- Learning Diffusion Policies from Demonstrations For Compliant Contact-rich Manipulation [5.1245307851495]
本稿では,DIPCOM(Diffusion Policies for Compliant Manipulation)を提案する。
生成拡散モデルを活用することで、カルト効果のポーズを予測し、腕の硬さを調整し、必要な力を維持できる政策を開発する。
提案手法は,マルチモーダル分布モデリングによる力制御を強化し,コンプライアンス制御における拡散ポリシの統合を改善し,実世界のタスクにおいてその効果を示すことによって,これまでの作業を拡張する。
論文 参考訳(メタデータ) (2024-10-25T00:56:15Z) - Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。
具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。
これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文 参考訳(メタデータ) (2024-03-04T18:59:30Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Personalized Rehabilitation Robotics based on Online Learning Control [62.6606062732021]
本稿では,各ユーザに対して実行時の制御力をパーソナライズ可能な,新しいオンライン学習制御アーキテクチャを提案する。
提案手法を,学習コントローラがパーソナライズされた制御を提供するとともに,安全な相互作用力も得られる実験ユーザスタディで評価した。
論文 参考訳(メタデータ) (2021-10-01T15:28:44Z) - On the Emergence of Whole-body Strategies from Humanoid Robot
Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。
本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文 参考訳(メタデータ) (2021-04-29T17:49:20Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning Whole-body Motor Skills for Humanoids [25.443880385966114]
本稿では,多種多様なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。
この方針は、ロボットモデルの現実的な設定と、学習したスキルを実際のロボットに簡単に伝達できる低レベルのインピーダンス制御を備えた物理シミュレーターで訓練されている。
論文 参考訳(メタデータ) (2020-02-07T19:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。