論文の概要: Robotic Manipulation Datasets for Offline Compositional Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2307.07091v1
- Date: Thu, 13 Jul 2023 23:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:21:48.892658
- Title: Robotic Manipulation Datasets for Offline Compositional Reinforcement
Learning
- Title(参考訳): オフライン構成強化学習のためのロボットマニピュレーションデータセット
- Authors: Marcel Hussing, Jorge A. Mendez, Anisha Singrodia, Cassandra Kent,
Eric Eaton
- Abstract要約: 本論文はCompoSuiteの256タスクを用いて作成したシミュレーションロボット操作のための4つのオフラインRLデータセットを提供する。
エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。
- 参考スコア(独自算出の注目度): 27.44432650330386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) is a promising direction that allows RL
agents to pre-train on large datasets, avoiding the recurrence of expensive
data collection. To advance the field, it is crucial to generate large-scale
datasets. Compositional RL is particularly appealing for generating such large
datasets, since 1) it permits creating many tasks from few components, 2) the
task structure may enable trained agents to solve new tasks by combining
relevant learned components, and 3) the compositional dimensions provide a
notion of task relatedness. This paper provides four offline RL datasets for
simulated robotic manipulation created using the 256 tasks from CompoSuite
[Mendez et al., 2022a]. Each dataset is collected from an agent with a
different degree of performance, and consists of 256 million transitions. We
provide training and evaluation settings for assessing an agent's ability to
learn compositional task policies. Our benchmarking experiments on each setting
show that current offline RL methods can learn the training tasks to some
extent and that compositional methods significantly outperform
non-compositional methods. However, current methods are still unable to extract
the tasks' compositional structure to generalize to unseen tasks, showing a
need for further research in offline compositional RL.
- Abstract(参考訳): オフライン強化学習(RL)は、RLエージェントが大規模なデータセットで事前トレーニングが可能で、高価なデータ収集の再発を避けるための有望な方向である。
この分野を進めるためには、大規模なデータセットを生成することが不可欠である。
合成RLはこのような大きなデータセットを生成するのに特に魅力的です。
1)少数のコンポーネントから多くのタスクを作成できる。
2 訓練員は、関連する学習要素を組み合わせることにより、新たな課題を解決することができる。
3) 構成次元はタスク関連性の概念を提供する。
本論文は,CompoSuite [Mendez et al., 2022a] の256タスクを用いたロボット操作シミュレーションのための4つのオフラインRLデータセットを提供する。
各データセットは、異なるレベルのパフォーマンスを持つエージェントから収集され、256万のトランジションで構成される。
エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。
各設定におけるベンチマーク実験では,現在のオフラインrlメソッドがある程度のトレーニングタスクを学習でき,合成メソッドが非コンポジションメソッドを大幅に上回っていることが示された。
しかし、現在の手法では、未知のタスクに一般化するためにタスクの構成構造を抽出できないため、オフライン構成rlのさらなる研究が必要である。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Identifying Expert Behavior in Offline Training Datasets Improves
Behavioral Cloning of Robotic Manipulation Policies [15.383102120417407]
本稿では,NeurIPS 2022コンペティショントラックで特集されているReal Robot Challenge IIIのソリューションについて述べる。
これは、事前に収集されたオフラインデータから学習することで、巧妙なロボット操作タスクに対処することを目的としている。
論文 参考訳(メタデータ) (2023-01-30T15:55:02Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。