Fugu-MT 論文翻訳(概要): Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation

論文の概要: Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation

arxiv url: http://arxiv.org/abs/2404.04219v1
Date: Fri, 5 Apr 2024 17:05:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 15:35:54.844033
Title: Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation
Title（参考訳）: ソフトハンドイン・ハンドマニピュレーションのための強化学習型制御器の継続的な政策拡張
Authors: Lanpei Li, Enrico Donato, Vincenzo Lomonaco, Egidio Falotico,
Abstract要約: ソフトロボットハンドは、物体の握りと操作中に柔軟性と適応性を提供する。我々は,手動操作のための多目的制御器を取得するための連続ポリシー蒸留フレームワークを提案する。
参考スコア（独自算出の注目度）: 5.601529531526852
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Dexterous manipulation, often facilitated by multi-fingered robotic hands, holds solid impact for real-world applications. Soft robotic hands, due to their compliant nature, offer flexibility and adaptability during object grasping and manipulation. Yet, benefits come with challenges, particularly in the control development for finger coordination. Reinforcement Learning (RL) can be employed to train object-specific in-hand manipulation policies, but limiting adaptability and generalizability. We introduce a Continual Policy Distillation (CPD) framework to acquire a versatile controller for in-hand manipulation, to rotate different objects in shape and size within a four-fingered soft gripper. The framework leverages Policy Distillation (PD) to transfer knowledge from expert policies to a continually evolving student policy network. Exemplar-based rehearsal methods are then integrated to mitigate catastrophic forgetting and enhance generalization. The performance of the CPD framework over various replay strategies demonstrates its effectiveness in consolidating knowledge from multiple experts and achieving versatile and adaptive behaviours for in-hand manipulation tasks.
Abstract（参考訳）: 多指のロボットハンドによってしばしば促進されるデクサラスな操作は、現実世界のアプリケーションにしっかりと影響を与えている。ソフトロボットハンドは、その適合性から、物体の握りと操作時の柔軟性と適応性を提供する。しかし、特に指の調整のための制御開発において、利点は課題を生んでいる。強化学習(Reinforcement Learning, RL)は、オブジェクト固有の手動操作ポリシーを訓練するために用いられるが、適応性と一般化性は制限される。本研究では,4本の指の柔らかいグリップ内で異なる物体の形状と大きさを回転させるために,手動操作のための多目的コントローラを取得するためのCPD(Continuous Policy Distillation)フレームワークを提案する。このフレームワークは政策蒸留(PD)を利用して、専門家の政策から継続的に進化する学生政策ネットワークに知識を伝達する。典型的なリハーサル法は、破滅的な忘れを緩和し、一般化を促進するために統合される。様々なリプレイ戦略に対するCDDフレームワークの性能は、複数の専門家の知識を集約し、手作業における多目的かつ適応的な行動を実現する上で、その効果を示す。

関連論文リスト

Multi-Goal Dexterous Hand Manipulation using Probabilistic Model-based Reinforcement Learning [2.34860173297653]
本稿では,モデルに基づく強化学習を用いて,多目的手操作タスクの学習に挑戦する。本稿では,高次元手動特性を記述するためのゴールコンディション型確率モデル予測制御(GC-PMPC)を提案する。ケーブル駆動のDexterousハンドDexHand 021を12個のアクティブDOFと5個の触覚センサーで駆動し、約80分以内に3つのゴールポーズにキュービッドダイの操作を学習する。
論文参考訳（メタデータ） (2025-04-30T12:44:38Z)
ForceGrip: Reference-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation [0.10995326465245926]
本稿では,現実的な手操作動作を合成する深層学習エージェントであるForceGripを紹介する。我々は、指の位置決め、意図適応、動的安定化を含む3段階のカリキュラム学習フレームワークを採用する。以上の結果から,ForceGripの出力制御性と信頼性は最先端の手法に比べて優れていた。
論文参考訳（メタデータ） (2025-03-11T05:39:07Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。この報酬は、訓練済みの政策を強化学習で微調整するために使われる。実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文参考訳（メタデータ） (2025-01-14T17:15:27Z)
DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation [78.60543357822957]
高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。 DexHandDiffは,適応的デキスタラス操作のための対話型拡散計画フレームワークである。当社のフレームワークは, 目標適応度の高いタスクにおいて, 平均70.7%の成功率を実現し, コンタクトリッチな操作における堅牢性と柔軟性を強調した。
論文参考訳（メタデータ） (2024-11-27T18:03:26Z)
Learning Diffusion Policies from Demonstrations For Compliant Contact-rich Manipulation [5.1245307851495]
本稿では,DIPCOM(Diffusion Policies for Compliant Manipulation)を提案する。生成拡散モデルを活用することで、カルト効果のポーズを予測し、腕の硬さを調整し、必要な力を維持できる政策を開発する。提案手法は,マルチモーダル分布モデリングによる力制御を強化し,コンプライアンス制御における拡散ポリシの統合を改善し,実世界のタスクにおいてその効果を示すことによって,これまでの作業を拡張する。
論文参考訳（メタデータ） (2024-10-25T00:56:15Z)
Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文参考訳（メタデータ） (2024-10-17T17:46:27Z)
Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文参考訳（メタデータ） (2024-03-04T18:59:30Z)
Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文参考訳（メタデータ） (2023-07-19T17:42:36Z)
Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文参考訳（メタデータ） (2022-12-19T22:50:40Z)
Personalized Rehabilitation Robotics based on Online Learning Control [62.6606062732021]
本稿では,各ユーザに対して実行時の制御力をパーソナライズ可能な,新しいオンライン学習制御アーキテクチャを提案する。提案手法を,学習コントローラがパーソナライズされた制御を提供するとともに,安全な相互作用力も得られる実験ユーザスタディで評価した。
論文参考訳（メタデータ） (2021-10-01T15:28:44Z)
On the Emergence of Whole-body Strategies from Humanoid Robot Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文参考訳（メタデータ） (2021-04-29T17:49:20Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。 NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文参考訳（メタデータ） (2020-12-04T18:59:32Z)
Learning Whole-body Motor Skills for Humanoids [25.443880385966114]
本稿では,多種多様なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。この方針は、ロボットモデルの現実的な設定と、学習したスキルを実際のロボットに簡単に伝達できる低レベルのインピーダンス制御を備えた物理シミュレーターで訓練されている。
論文参考訳（メタデータ） (2020-02-07T19:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。