論文の概要: Winning Solution of Real Robot Challenge III
- arxiv url: http://arxiv.org/abs/2301.13019v1
- Date: Mon, 30 Jan 2023 15:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:06:54.057380
- Title: Winning Solution of Real Robot Challenge III
- Title(参考訳): リアルロボットチャレンジの勝利解III
- Authors: Qiang Wang, Robert McCarthy, David Cordova Bulens, and Stephen J.
Redmond
- Abstract要約: 本稿では,Real Robot Challenge (RRC) 2022における実ロボットフェーズの勝利について紹介する。
今年の課題は、オフライン強化学習(RL)や模倣学習を用いて、巧妙な操作タスクを解決することである。
我々の実験では、専門家データセットから学習すると、標準的な行動クローン(BC)が最先端のオフラインRLアルゴリズムより優れています。
- 参考スコア(独自算出の注目度): 7.394070538415562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report introduces our winning solution of the real-robot phase of the
Real Robot Challenge (RRC) 2022. The goal of this year's challenge is to solve
dexterous manipulation tasks with offline reinforcement learning (RL) or
imitation learning. To this end, participants are provided with datasets
containing dozens of hours of robotic data. For each task an expert and a mixed
dataset are provided. In our experiments, when learning from the expert
datasets, we find standard Behavioral Cloning (BC) outperforms state-of-the-art
offline RL algorithms. When learning from the mixed datasets, BC performs
poorly, as expected, while surprisingly offline RL performs suboptimally,
failing to match the average performance of the baseline model used for
collecting the datasets. To remedy this, motivated by the strong performance of
BC on the expert datasets we elect to use a semi-supervised classification
technique to filter the subset of expert data out from the mixed datasets, and
subsequently perform BC on this extracted subset of data. To further improve
results, in all settings we use a simple data augmentation method that exploits
the geometric symmetry of the RRC physical robotic environment. Our submitted
BC policies each surpass the mean return of their respective raw datasets, and
the policies trained on the filtered mixed datasets come close to matching the
performances of those trained on the expert datasets.
- Abstract(参考訳): 本稿では,実ロボットチャレンジ(RRC)2022における実ロボットフェーズの勝利解を紹介する。
今年の課題は、オフライン強化学習(RL)や模倣学習を用いて、巧妙な操作タスクを解決することである。
この目的のために参加者は、数十時間分のロボットデータを含むデータセットを提供する。
各タスクに対して、専門家と混合データセットが提供される。
我々の実験では、専門家データセットから学習すると、標準的な行動クローン(BC)が最先端のオフラインRLアルゴリズムより優れています。
混合データセットから学ぶ場合、BCは予想通りパフォーマンスが悪く、驚くほどオフラインのRLは、データセットの収集に使用されるベースラインモデルの平均的なパフォーマンスと一致しない。
これを改善するため、専門家データセット上でのBCの強いパフォーマンスに動機づけられた私たちは、半教師付き分類技術を使用して、混合データセットから専門家データのサブセットをフィルタリングし、この抽出されたデータサブセット上でBCCを実行する。
結果を改善するため,RRC物理ロボット環境の幾何対称性を利用する単純なデータ拡張手法を全設定で使用した。
提案するbcポリシは,それぞれの生データセットの平均リターンを上回り,フィルタされた混合データセットでトレーニングされたポリシは,専門家データセットでトレーニングされたもののパフォーマンスにほぼ一致します。
関連論文リスト
- Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Robotic Manipulation Datasets for Offline Compositional Reinforcement Learning [25.24958915674457]
本稿では,CompoSuiteの256ドルのタスクを用いて,ロボット操作をシミュレーションするための4つのオフラインRLデータセットを提供する。
エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。
論文 参考訳(メタデータ) (2023-07-13T23:36:55Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:29:04Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文 参考訳(メタデータ) (2021-11-08T18:48:43Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。