論文の概要: Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.11375v1
- Date: Mon, 17 Feb 2025 02:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:38.666511
- Title: Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning
- Title(参考訳): 深部強化学習におけるNMPC生成デモによる変形可能な物体操作
- Authors: Haoyuan Wang, Zihao Dong, Hongliang Lei, Zejia Zhang, Weizhuang Shi, Wei Luo, Weiwei Wan, Jian Huang,
- Abstract要約: 実演強化学習(RL)に基づくロボットによる変形可能な物体操作の研究を行う。
RLの学習効率を向上させるため,複数の側面からの実演データの利用を向上し,HGCR-DDPGアルゴリズムを提案する。
新規な高次元ファジィ手法を用いて、ポイント選択を把握し、レインボーDDPGにおけるデータ駆動学習を強化するための洗練された行動閉鎖法と、シーケンシャルなポリシー学習戦略を用いる。
- 参考スコア(独自算出の注目度): 13.30562217252464
- License:
- Abstract: In this work, we conducted research on deformable object manipulation by robots based on demonstration-enhanced reinforcement learning (RL). To improve the learning efficiency of RL, we enhanced the utilization of demonstration data from multiple aspects and proposed the HGCR-DDPG algorithm. It uses a novel high-dimensional fuzzy approach for grasping-point selection, a refined behavior-cloning method to enhance data-driven learning in Rainbow-DDPG, and a sequential policy-learning strategy. Compared to the baseline algorithm (Rainbow-DDPG), our proposed HGCR-DDPG achieved 2.01 times the global average reward and reduced the global average standard deviation to 45% of that of the baseline algorithm. To reduce the human labor cost of demonstration collection, we proposed a low-cost demonstration collection method based on Nonlinear Model Predictive Control (NMPC). Simulation experiment results show that demonstrations collected through NMPC can be used to train HGCR-DDPG, achieving comparable results to those obtained with human demonstrations. To validate the feasibility of our proposed methods in real-world environments, we conducted physical experiments involving deformable object manipulation. We manipulated fabric to perform three tasks: diagonal folding, central axis folding, and flattening. The experimental results demonstrate that our proposed method achieved success rates of 83.3%, 80%, and 100% for these three tasks, respectively, validating the effectiveness of our approach. Compared to current large-model approaches for robot manipulation, the proposed algorithm is lightweight, requires fewer computational resources, and offers task-specific customization and efficient adaptability for specific tasks.
- Abstract(参考訳): 本研究では,実演強化学習(RL)に基づくロボットによる変形可能な物体操作の研究を行った。
RLの学習効率を向上させるため,複数の側面からの実演データの利用を向上し,HGCR-DDPGアルゴリズムを提案する。
新規な高次元ファジィ手法を用いて、ポイント選択を把握し、レインボーDDPGにおけるデータ駆動学習を強化するための洗練された行動閉鎖法と、シーケンシャルなポリシー学習戦略を用いる。
ベースラインアルゴリズム(Rainbow-DDPG)と比較して,提案したHGCR-DDPGはグローバル平均報酬の2.01倍を達成し,グローバル平均標準偏差をベースラインアルゴリズムの45%まで低減した。
本研究では,非線型モデル予測制御(NMPC)に基づく低コストな実証収集手法を提案する。
シミュレーション実験の結果,NMPCを用いて収集した実演はHGCR-DDPGの訓練に利用でき,人間の実演に匹敵する結果が得られた。
実環境における提案手法の有効性を検証するため,変形可能な物体操作を含む物理実験を行った。
ファブリックを操作して,斜め折り,中央軸折り,平ら化という3つのタスクをこなした。
実験の結果,提案手法は3つの課題に対して, それぞれ83.3%, 80%, 100%の成功率を達成し, 提案手法の有効性を検証した。
現在のロボット操作の大規模モデルアプローチと比較して、提案アルゴリズムは軽量であり、計算資源を少なくし、タスク固有のカスタマイズと特定のタスクに対する効率的な適応性を提供する。
関連論文リスト
- MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Off-Policy Deep Reinforcement Learning Algorithms for Handling Various
Robotic Manipulator Tasks [0.0]
本研究では,Fetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべて非政治的であり、ポリシーと値関数の両方を最適化することで、彼らの望ましい目標を達成することができる。
論文 参考訳(メタデータ) (2022-12-11T18:25:24Z) - Efficient Exploration using Model-Based Quality-Diversity with Gradients [4.788163807490196]
本稿では,モデルに基づく品質多様性アプローチを提案する。
既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。
提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2022-11-22T22:19:01Z) - Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient
Sensorimotor Policy Learning [49.05174527668836]
シミュレーション学習(IL)は、計算コストのかかるモデルベースセンシングと制御アルゴリズムによって提供されるデモから、計算効率のよいセンセータポリシーを生成することができる。
本研究では,ILと出力フィードバック頑健な管モデル予測コントローラを組み合わせることで,実演とデータ拡張戦略を併用し,ニューラルネットワークに基づくセンサモジュレータポリシーを効率的に学習する。
提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2022-10-18T19:59:17Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。