論文の概要: Robot Policy Learning from Demonstration Using Advantage Weighting and
Early Termination
- arxiv url: http://arxiv.org/abs/2208.00478v1
- Date: Sun, 31 Jul 2022 17:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:52:28.384267
- Title: Robot Policy Learning from Demonstration Using Advantage Weighting and
Early Termination
- Title(参考訳): 有利重み付けと早期終了を用いた実演によるロボット政策学習
- Authors: Abdalkarim Mohtasib, Gerhard Neumann, Heriberto Cuayahuitl
- Abstract要約: オフラインおよびオンライントレーニングを用いたオフライン専門家データを活用するために,新しい手法を用いたアルゴリズムを提案する。
AWETは、4つの標準的なロボットタスクの最先端のベースラインと比較して改善され、有望なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 14.754297065772676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning robotic tasks in the real world is still highly challenging and
effective practical solutions remain to be found. Traditional methods used in
this area are imitation learning and reinforcement learning, but they both have
limitations when applied to real robots. Combining reinforcement learning with
pre-collected demonstrations is a promising approach that can help in learning
control policies to solve robotic tasks. In this paper, we propose an algorithm
that uses novel techniques to leverage offline expert data using offline and
online training to obtain faster convergence and improved performance. The
proposed algorithm (AWET) weights the critic losses with a novel agent
advantage weight to improve over the expert data. In addition, AWET makes use
of an automatic early termination technique to stop and discard policy rollouts
that are not similar to expert trajectories -- to prevent drifting far from the
expert data. In an ablation study, AWET showed improved and promising
performance when compared to state-of-the-art baselines on four standard
robotic tasks.
- Abstract(参考訳): 現実世界でのロボットタスクの学習は依然として非常に困難であり、効果的な実践的な解決方法はまだ見つからない。
この分野で使われる伝統的な方法は模倣学習と強化学習であるが、どちらも実際のロボットに適用すると制限がある。
強化学習とプレコンパイルされたデモを組み合わせることは、ロボットタスクを解決するための制御ポリシーを学ぶ上で、有望なアプローチだ。
本稿では,オフラインおよびオンライントレーニングを用いてオフライン専門家データを活用する新しい手法を用いて,より高速な収束と性能向上を実現するアルゴリズムを提案する。
提案アルゴリズム (awet) は, 専門家データを改善するために, 新たなエージェントアドバンテージ重みで批評家の損失を重み付けする。
さらに、awetは、専門家の軌跡と似ていないポリシーロールアウトを停止し破棄するために、自動早期終了技術を使用して、専門家データから遠く離れたドリフトを防止する。
アブレーション研究では、AWETは4つの標準的なロボット作業における最先端のベースラインと比較して改善され、有望な性能を示した。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。