論文の概要: RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents
- arxiv url: http://arxiv.org/abs/2403.19622v1
- Date: Thu, 28 Mar 2024 17:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:14:42.387438
- Title: RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents
- Title(参考訳): RH20T-P:構成可能な一般化エージェントに向けた原始レベルロボットデータセット
- Authors: Zeren Chen, Zhelun Shi, Xiaoya Lu, Lehan He, Sucheng Qian, Hao Shu Fang, Zhenfei Yin, Wanli Ouyang, Jing Shao, Yu Qiao, Cewu Lu, Lu Sheng,
- Abstract要約: ロボット学習の最終的な目標は、包括的で一般化可能なロボットシステムを取得することである。
言語モデルを高レベルプランナとして活用する最近の進歩は,タスクをプリミティブレベルプランに分解することで,タスクの複雑さを低減できることを実証している。
将来性はあるものの、コミュニティはまだ構成可能な一般化エージェントに十分な準備が整っていない。
- 参考スコア(独自算出の注目度): 107.97394661147102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ultimate goals of robotic learning is to acquire a comprehensive and generalizable robotic system capable of performing both seen skills within the training distribution and unseen skills in novel environments. Recent progress in utilizing language models as high-level planners has demonstrated that the complexity of tasks can be reduced through decomposing them into primitive-level plans, making it possible to generalize on novel robotic tasks in a composable manner. Despite the promising future, the community is not yet adequately prepared for composable generalization agents, particularly due to the lack of primitive-level real-world robotic datasets. In this paper, we propose a primitive-level robotic dataset, namely RH20T-P, which contains about 33000 video clips covering 44 diverse and complicated robotic tasks. Each clip is manually annotated according to a set of meticulously designed primitive skills, facilitating the future development of composable generalization agents. To validate the effectiveness of RH20T-P, we also construct a potential and scalable agent based on RH20T-P, called RA-P. Equipped with two planners specialized in task decomposition and motion planning, RA-P can adapt to novel physical skills through composable generalization. Our website and videos can be found at https://sites.google.com/view/rh20t-primitive/main. Dataset and code will be made available soon.
- Abstract(参考訳): ロボット学習の究極的な目標は、トレーニングディストリビューション内で見られるスキルと、新しい環境で見えないスキルの両方を実行することができる包括的で一般化可能なロボットシステムを取得することである。
言語モデルを高レベルプランナーとして活用する最近の進歩は、それらをプリミティブレベルプランに分解することで、タスクの複雑さを低減できることを示しており、新しいロボットタスクを構成可能な方法で一般化することができる。
将来性があるにもかかわらず、コミュニティはまだ構成可能な一般化エージェントに十分な準備をしていない。
本稿では,44の多様な複雑なロボットタスクをカバーする約33,000のビデオクリップを含む,原始レベルのロボットデータセットRH20T-Pを提案する。
各クリップは、精巧に設計された原始的なスキルのセットに従って手動でアノテートされ、構成可能な一般化エージェントの開発を後押しする。
RH20T-Pの有効性を検証するため、RA-Pと呼ばれるRH20T-Pに基づく潜在的でスケーラブルなエージェントを構築した。
タスク分解と動作計画に特化した2つのプランナーを備えるRA-Pは、構成可能な一般化により、新しい物理スキルに適応することができる。
私たちのWebサイトとビデオはhttps://sites.google.com/view/rh20t-primitive/main.comにある。
データセットとコードはまもなく利用可能になる。
関連論文リスト
- SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Continual Vision-based Reinforcement Learning with Group Symmetries [18.7526848176769]
我々は,COVERSと呼ばれるグループ対称性を認識する,ユニークな連続視覚に基づく強化学習手法を提案する。
その結果, COVERS は各グループにタスクを正確に割り当て, 一般化能力において既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-21T23:41:02Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。