論文の概要: PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for
Data-Efficient Imitation Learning
- arxiv url: http://arxiv.org/abs/2403.00929v2
- Date: Sun, 10 Mar 2024 08:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:40:07.390686
- Title: PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for
Data-Efficient Imitation Learning
- Title(参考訳): PRIME:データ効率な模倣学習のための行動プリミティブを用いた操作タスクの共有
- Authors: Tian Gao, Soroush Nasiriany, Huihan Liu, Quantao Yang, Yuke Zhu
- Abstract要約: PRIME(Primitive-based imitation with data efficiency)は、模倣学習のデータ効率を改善するために設計された行動プリミティブベースのフレームワークである。
本実験は,多段階操作タスクにおいてPRIMEが大幅な性能向上を実現することを示す。
- 参考スコア(独自算出の注目度): 44.79250791875143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has shown great potential for enabling robots to acquire
complex manipulation behaviors. However, these algorithms suffer from high
sample complexity in long-horizon tasks, where compounding errors accumulate
over the task horizons. We present PRIME (PRimitive-based IMitation with data
Efficiency), a behavior primitive-based framework designed for improving the
data efficiency of imitation learning. PRIME scaffolds robot tasks by
decomposing task demonstrations into primitive sequences, followed by learning
a high-level control policy to sequence primitives through imitation learning.
Our experiments demonstrate that PRIME achieves a significant performance
improvement in multi-stage manipulation tasks, with 10-34% higher success rates
in simulation over state-of-the-art baselines and 20-48% on physical hardware.
- Abstract(参考訳): 模倣学習は、ロボットが複雑な操作行動を得るための大きな可能性を示している。
しかし、これらのアルゴリズムは、タスクの水平線上に複合エラーが蓄積する長いホリゾンタスクにおいて、高いサンプル複雑性に苦しむ。
我々は、模倣学習のデータ効率を向上させるために設計された行動原始型フレームワークであるprime(primitive-based imitation with data efficiency)を提案する。
PRIMEは、タスクデモをプリミティブシーケンスに分解し、続いて模倣学習を通じてプリミティブをシーケンスするハイレベルな制御ポリシーを学ぶ。
実験の結果,PRIMEは多段階操作タスクにおいて,最先端ベースラインのシミュレーションにおいて10~34%,物理ハードウェアでは20~48%,大幅な性能向上を実現していることがわかった。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Improving Behavioural Cloning with Positive Unlabeled Learning [15.484227081812852]
本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。
結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
論文 参考訳(メタデータ) (2023-01-27T14:17:45Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。