論文の概要: Identifying Expert Behavior in Offline Training Datasets Improves
Behavioral Cloning of Robotic Manipulation Policies
- arxiv url: http://arxiv.org/abs/2301.13019v2
- Date: Thu, 21 Sep 2023 10:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 20:07:08.545015
- Title: Identifying Expert Behavior in Offline Training Datasets Improves
Behavioral Cloning of Robotic Manipulation Policies
- Title(参考訳): オフライントレーニングデータセットにおける専門家の行動同定はロボットマニピュレーション政策の行動クローニングを改善する
- Authors: Qiang Wang, Robert McCarthy, David Cordova Bulens, Francisco Roldan
Sanchez, Kevin McGuinness, Noel E. O'Connor, and Stephen J. Redmond
- Abstract要約: 本稿では,NeurIPS 2022コンペティショントラックで特集されているReal Robot Challenge IIIのソリューションについて述べる。
これは、事前に収集されたオフラインデータから学習することで、巧妙なロボット操作タスクに対処することを目的としている。
- 参考スコア(独自算出の注目度): 15.383102120417407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our solution for the Real Robot Challenge (RRC) III, a
competition featured in the NeurIPS 2022 Competition Track, aimed at addressing
dexterous robotic manipulation tasks through learning from pre-collected
offline data. Participants were provided with two types of datasets for each
task: expert and mixed datasets with varying skill levels. While the simplest
offline policy learning algorithm, Behavioral Cloning (BC), performed
remarkably well when trained on expert datasets, it outperformed even the most
advanced offline reinforcement learning (RL) algorithms. However, BC's
performance deteriorated when applied to mixed datasets, and the performance of
offline RL algorithms was also unsatisfactory. Upon examining the mixed
datasets, we observed that they contained a significant amount of expert data,
although this data was unlabeled. To address this issue, we proposed a
semi-supervised learning-based classifier to identify the underlying expert
behavior within mixed datasets, effectively isolating the expert data. To
further enhance BC's performance, we leveraged the geometric symmetry of the
RRC arena to augment the training dataset through mathematical transformations.
In the end, our submission surpassed that of all other participants, even those
who employed complex offline RL algorithms and intricate data processing and
feature engineering techniques.
- Abstract(参考訳): 本稿では,事前に収集したオフラインデータから学習することで,ロボット操作課題を解決することを目的とした,neurips 2022コンペティショントラックに取り上げられる「real robot challenge (rrc) iii」のソリューションを提案する。
参加者には、専門家とさまざまなスキルレベルを持つ混合データセットの2つのタイプのデータセットが与えられた。
最も単純なオフラインポリシ学習アルゴリズムであるBehavimental Cloning(BC)は、専門家データセットでトレーニングされた場合、極めてよく機能するが、最も高度なオフライン強化学習(RL)アルゴリズムよりも優れていた。
しかし、bcの性能は混合データセットに適用すると低下し、オフラインのrlアルゴリズムの性能も不十分であった。
混合データセットを調べると、これらのデータにはかなりの量の専門家データが含まれていることがわかりました。
この問題に対処するために,我々は半教師付き学習ベース分類器を提案し,混合データセット内のエキスパートの振る舞いを識別し,専門家データを効果的に分離する。
bcの性能をさらに高めるため、rrcアリーナの幾何学的対称性を利用して、数学的変換によるトレーニングデータセットの強化を行った。
最終的には、複雑なオフラインRLアルゴリズムや複雑なデータ処理、機能エンジニアリング技術を使っている人たちでさえ、他のすべての参加者よりも上回った。
関連論文リスト
- Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Robotic Manipulation Datasets for Offline Compositional Reinforcement Learning [25.24958915674457]
本稿では,CompoSuiteの256ドルのタスクを用いて,ロボット操作をシミュレーションするための4つのオフラインRLデータセットを提供する。
エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。
論文 参考訳(メタデータ) (2023-07-13T23:36:55Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:29:04Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文 参考訳(メタデータ) (2021-11-08T18:48:43Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。