論文の概要: ACNMP: Skill Transfer and Task Extrapolation through Learning from
Demonstration and Reinforcement Learning via Representation Sharing
- arxiv url: http://arxiv.org/abs/2003.11334v3
- Date: Mon, 9 Nov 2020 09:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:06:58.624186
- Title: ACNMP: Skill Transfer and Task Extrapolation through Learning from
Demonstration and Reinforcement Learning via Representation Sharing
- Title(参考訳): acnmp: 表現共有による実演と強化学習からの学習によるスキル伝達とタスク外挿
- Authors: M.Tuluhan Akbulut, Erhan Oztop, M.Yunus Seker, Honghu Xue, Ahmet E.
Tekden and Emre Ugur
- Abstract要約: ACNMPは、異なる形態を持つロボット間のスキル伝達を実装するために使用できる。
本稿では,実際のロボット実験を通して,ACNMPの現実的適合性を示す。
- 参考スコア(独自算出の注目度): 5.06461227260756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To equip robots with dexterous skills, an effective approach is to first
transfer the desired skill via Learning from Demonstration (LfD), then let the
robot improve it by self-exploration via Reinforcement Learning (RL). In this
paper, we propose a novel LfD+RL framework, namely Adaptive Conditional Neural
Movement Primitives (ACNMP), that allows efficient policy improvement in novel
environments and effective skill transfer between different agents. This is
achieved through exploiting the latent representation learned by the underlying
Conditional Neural Process (CNP) model, and simultaneous training of the model
with supervised learning (SL) for acquiring the demonstrated trajectories and
via RL for new trajectory discovery. Through simulation experiments, we show
that (i) ACNMP enables the system to extrapolate to situations where pure LfD
fails; (ii) Simultaneous training of the system through SL and RL preserves the
shape of demonstrations while adapting to novel situations due to the shared
representations used by both learners; (iii) ACNMP enables order-of-magnitude
sample-efficient RL in extrapolation of reaching tasks compared to the existing
approaches; (iv) ACNMPs can be used to implement skill transfer between robots
having different morphology, with competitive learning speeds and importantly
with less number of assumptions compared to the state-of-the-art approaches.
Finally, we show the real-world suitability of ACNMPs through real robot
experiments that involve obstacle avoidance, pick and place and pouring
actions.
- Abstract(参考訳): ロボットに巧妙なスキルを付与するためには、まずデモレーション(LfD)から学び、次に強化学習(RL)を介して自己探索により改善させることが効果的である。
本稿では,新しい環境における効率的な政策改善と異なるエージェント間の効果的なスキル伝達を可能にする新しいlfd+rlフレームワーク,adaptive conditional neural movement primitives (acnmp)を提案する。
これは、基礎となる条件付きニューラルプロセス(CNP)モデルで学習した潜在表現を活用し、そのモデルと教師付き学習(SL)を同時トレーニングして、新しい軌道探索のためのRLを用いて達成される。
シミュレーション実験を通して
(i)ACNMPは、純粋なLfDが失敗する状況への外挿を可能にする。
二 SL及びRLによるシステムの同時訓練は、双方の学習者が使用する共有表現により、新しい状況に適応しつつ、デモンストレーションの形状を保ちます。
3 ACNMPは、既存のアプローチと比較して、到達タスクの補間において、オーダーオブマグニチュードサンプル効率のRLを可能にする。
(iv)acnmpは、異なる形態を持つロボット間のスキル伝達を実現するために使用することができ、競争力のある学習速度を持ち、最先端のアプローチに比べて仮定の数が少ないことが重要である。
最後に, 障害物回避, ピック・アンド・プレース, 注水動作を含む実ロボット実験を通じて, acnmpの現実世界的適合性を示す。
関連論文リスト
- Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。