論文の概要: Robotic Manipulation Datasets for Offline Compositional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.07091v2
- Date: Mon, 15 Jul 2024 17:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:08:47.322541
- Title: Robotic Manipulation Datasets for Offline Compositional Reinforcement Learning
- Title(参考訳): オフライン構成強化学習のためのロボットマニピュレーションデータセット
- Authors: Marcel Hussing, Jorge A. Mendez, Anisha Singrodia, Cassandra Kent, Eric Eaton,
- Abstract要約: 本稿では,CompoSuiteの256ドルのタスクを用いて,ロボット操作をシミュレーションするための4つのオフラインRLデータセットを提供する。
エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。
- 参考スコア(独自算出の注目度): 25.24958915674457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) is a promising direction that allows RL agents to pre-train on large datasets, avoiding the recurrence of expensive data collection. To advance the field, it is crucial to generate large-scale datasets. Compositional RL is particularly appealing for generating such large datasets, since 1)~it permits creating many tasks from few components, 2)~the task structure may enable trained agents to solve new tasks by combining relevant learned components, and 3)~the compositional dimensions provide a notion of task relatedness. This paper provides four offline RL datasets for simulated robotic manipulation created using the $256$ tasks from CompoSuite [Mendez at al., 2022a]. Each dataset is collected from an agent with a different degree of performance, and consists of $256$ million transitions. We provide training and evaluation settings for assessing an agent's ability to learn compositional task policies. Our benchmarking experiments show that current offline RL methods can learn the training tasks to some extent and that compositional methods outperform non-compositional methods. Yet current methods are unable to extract the compositional structure to generalize to unseen tasks, highlighting a need for future research in offline compositional RL.
- Abstract(参考訳): オフライン強化学習(RL)は、RLエージェントが大規模なデータセットで事前トレーニングが可能で、高価なデータ収集の再発を避けるための有望な方向である。
フィールドを前進させるためには、大規模なデータセットを生成することが不可欠である。
構成的RLは,1) - 少数のコンポーネントから多数のタスクを作成できる,2) - タスク構造は,関連する学習されたコンポーネントを組み合わせることで,訓練されたエージェントが新しいタスクを解決できる,3) - 構成的次元はタスク関連性の概念を提供する,など,このような大きなデータセットを生成するのに特に魅力的である。
本稿では,CompoSuite [Mendez at al., 2022a]の256ドルのタスクを用いて,ロボット操作をシミュレーションするための4つのオフラインRLデータセットを提供する。
各データセットは、異なるレベルのパフォーマンスを持つエージェントから収集され、256万のトランジションから構成される。
エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。
ベンチマーク実験により、現在のオフラインRL手法はある程度のトレーニングタスクを学習でき、構成法は非構成法よりも優れていることが示された。
しかし、現在の手法では、未知のタスクに一般化するための構成構造を抽出することができず、オフライン合成RLにおける将来の研究の必要性を強調している。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Identifying Expert Behavior in Offline Training Datasets Improves
Behavioral Cloning of Robotic Manipulation Policies [15.383102120417407]
本稿では,NeurIPS 2022コンペティショントラックで特集されているReal Robot Challenge IIIのソリューションについて述べる。
これは、事前に収集されたオフラインデータから学習することで、巧妙なロボット操作タスクに対処することを目的としている。
論文 参考訳(メタデータ) (2023-01-30T15:55:02Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。