論文の概要: Evaluating the Effectiveness of Corrective Demonstrations and a Low-Cost
Sensor for Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2204.07631v1
- Date: Fri, 15 Apr 2022 19:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 06:06:33.550540
- Title: Evaluating the Effectiveness of Corrective Demonstrations and a Low-Cost
Sensor for Dexterous Manipulation
- Title(参考訳): ディクサラスマニピュレーションにおける補正デモンストレーションと低コストセンサの有効性の評価
- Authors: Abhineet Jain, Jack Kolb, J.M. Abbess IV, Harish Ravichandar
- Abstract要約: 模倣学習は、ロボットが巧妙な操作能力を獲得するのを助ける、有望なアプローチである。
このような追加デモンストレーションの特性と性能への影響について検討する。
本稿では、LeapMotionのような安価な視覚ベースのセンサーを用いて、デモの提供コストを大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 0.5669790037378094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning is a promising approach to help robots acquire dexterous
manipulation capabilities without the need for a carefully-designed reward or a
significant computational effort. However, existing imitation learning
approaches require sophisticated data collection infrastructure and struggle to
generalize beyond the training distribution. One way to address this limitation
is to gather additional data that better represents the full operating
conditions. In this work, we investigate characteristics of such additional
demonstrations and their impact on performance. Specifically, we study the
effects of corrective and randomly-sampled additional demonstrations on
learning a policy that guides a five-fingered robot hand through a
pick-and-place task. Our results suggest that corrective demonstrations
considerably outperform randomly-sampled demonstrations, when the proportion of
additional demonstrations sampled from the full task distribution is larger
than the number of original demonstrations sampled from a restrictive training
distribution. Conversely, when the number of original demonstrations are higher
than that of additional demonstrations, we find no significant differences
between corrective and randomly-sampled additional demonstrations. These
results provide insights into the inherent trade-off between the effort
required to collect corrective demonstrations and their relative benefits over
randomly-sampled demonstrations. Additionally, we show that inexpensive
vision-based sensors, such as LeapMotion, can be used to dramatically reduce
the cost of providing demonstrations for dexterous manipulation tasks. Our code
is available at
https://github.com/GT-STAR-Lab/corrective-demos-dexterous-manipulation.
- Abstract(参考訳): 模倣学習(imitation learning)は、ロボットが注意深く設計された報酬や重要な計算努力を必要とせずに、巧妙な操作能力を得るための有望なアプローチである。
しかし、既存の模倣学習アプローチでは、高度なデータ収集インフラストラクチャが必要であり、トレーニング分布を超えて一般化するのに苦労している。
この制限に対処する1つの方法は、完全な運用条件をより良く表現する追加データを集めることである。
本研究では,このような追加デモンストレーションの特性と性能への影響について検討する。
具体的には,5本指のロボットハンドをピック・アンド・プレイス・タスクを通じて誘導する政策学習における,修正的およびランダムなサンプル追加デモの効果について検討する。
以上の結果から,完全タスク分布からサンプリングされた追加デモンストレーションの割合が制限訓練分布からサンプリングされたオリジナルデモの数より大きい場合,補正デモはランダムにサンプリングされたデモンストレーションを大幅に上回っていることが示唆された。
逆に、元のデモの数が追加のデモよりも多い場合、修正とランダムにサンプリングした追加のデモの間に有意な差は見つからない。
これらの結果は、修正的なデモンストレーション収集に必要な作業と、ランダムにサンプリングされたデモに対する相対的なメリットとの間の、固有のトレードオフに関する洞察を提供する。
さらに、LeapMotionのような安価な視覚ベースのセンサーは、巧妙な操作タスクのデモを提供するコストを大幅に削減できることを示す。
私たちのコードはhttps://github.com/GT-STAR-Lab/corrective-demos-dexterous-manipulationで利用可能です。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-04T04:42:26Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。