論文の概要: Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information
- arxiv url: http://arxiv.org/abs/2110.10905v1
- Date: Thu, 21 Oct 2021 05:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:30:36.493185
- Title: Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information
- Title(参考訳): オフライン・オンライン強化学習とゴール認識状態情報による効率的なロボットマニピュレーション
- Authors: Jin Li, Xianyuan Zhan, Zixu Xiao, Guyue Zhou
- Abstract要約: 本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
- 参考スコア(独自算出の注目度): 5.604859261995801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end learning robotic manipulation with high data efficiency is one of
the key challenges in robotics. The latest methods that utilize human
demonstration data and unsupervised representation learning has proven to be a
promising direction to improve RL learning efficiency. The use of demonstration
data also allows "warming-up" the RL policies using offline data with imitation
learning or the recently emerged offline reinforcement learning algorithms.
However, existing works often treat offline policy learning and online
exploration as two separate processes, which are often accompanied by severe
performance drop during the offline-to-online transition. Furthermore, many
robotic manipulation tasks involve complex sub-task structures, which are very
challenging to be solved in RL with sparse reward. In this work, we propose a
unified offline-to-online RL framework that resolves the transition performance
drop issue. Additionally, we introduce goal-aware state information to the RL
agent, which can greatly reduce task complexity and accelerate policy learning.
Combined with an advanced unsupervised representation learning module, our
framework achieves great training efficiency and performance compared with the
state-of-the-art methods in multiple robotic manipulation tasks.
- Abstract(参考訳): データ効率の高いエンドツーエンドの学習ロボット操作は、ロボティクスの重要な課題の1つだ。
人間の実演データと教師なし表現学習を利用する最新の手法は、RL学習効率を向上させるための有望な方向であることが証明されている。
デモデータを使用することで、模倣学習や最近登場したオフライン強化学習アルゴリズムを使用したオフラインデータを使用したRLポリシの“ウォーミングアップ”が可能になる。
しかしながら、既存の作業では、オフラインポリシの学習とオンライン探索を2つのプロセスとして扱うことが多く、オフラインからオンラインへの移行時にパフォーマンスが低下することが多い。
さらに、多くのロボット操作タスクには複雑なサブタスク構造が含まれており、スパース報酬でRLで解決することが非常に困難である。
そこで本研究では,トランジッション性能低下を解消するオフライン-オフラインRLフレームワークを提案する。
さらに,RLエージェントに目標認識状態情報を導入し,タスクの複雑さを大幅に低減し,政策学習を加速させる。
高度な教師なし表現学習モジュールと組み合わせることで,ロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
関連論文リスト
- Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。