論文の概要: RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents
- arxiv url: http://arxiv.org/abs/2403.19622v2
- Date: Sat, 01 Feb 2025 11:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:03:56.919179
- Title: RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents
- Title(参考訳): RH20T-P:構成可能な一般化エージェントに向けた原始レベルロボットデータセット
- Authors: Zeren Chen, Zhelun Shi, Xiaoya Lu, Lehan He, Sucheng Qian, Zhenfei Yin, Wanli Ouyang, Jing Shao, Yu Qiao, Cewu Lu, Lu Sheng,
- Abstract要約: プリミティブレベルのロボット操作データセットであるRH20T-Pを提案する。
実際のシナリオで67種類の操作タスクをカバーする約38Kのビデオクリップが含まれている。
我々は、計画実行CGAパラダイムを標準化し、RH20T-PにRA-Pと呼ばれる典型的なベースラインを実装します。
- 参考スコア(独自算出の注目度): 105.13169239919272
- License:
- Abstract: Achieving generalizability in solving out-of-distribution tasks is one of the ultimate goals of learning robotic manipulation. Recent progress of Vision-Language Models (VLMs) has shown that VLM-based task planners can alleviate the difficulty of solving novel tasks, by decomposing the compounded tasks as a plan of sequentially executing primitive-level skills that have been already mastered. It is also promising for robotic manipulation to adapt such composable generalization ability, in the form of composable generalization agents (CGAs). However, the community lacks of reliable design of primitive skills and a sufficient amount of primitive-level data annotations. Therefore, we propose RH20T-P, a primitive-level robotic manipulation dataset, which contains about 38k video clips covering 67 diverse manipulation tasks in real-world scenarios. Each clip is manually annotated according to a set of meticulously designed primitive skills that are common in robotic manipulation. Furthermore, we standardize a plan-execute CGA paradigm and implement an exemplar baseline called RA-P on our RH20T-P, whose positive performance on solving unseen tasks validates that the proposed dataset can offer composable generalization ability to robotic manipulation agents.
- Abstract(参考訳): アウト・オブ・ディストリビューションタスクの解法における一般化性の実現は、ロボット操作の学習における究極の目標の1つである。
VLM(Vision-Language Models)の最近の進歩は、VLMをベースとしたタスクプランナが、すでに習得済みのプリミティブレベルのスキルを逐次実行するためのプランとして複合タスクを分解することで、新しいタスクの解決の難しさを軽減することができることを示している。
また、ロボット操作は、構成可能な一般化エージェント(CGA)の形で、そのような構成可能な一般化能力に適応することを約束している。
しかし、コミュニティにはプリミティブなスキルの設計と十分な量のプリミティブレベルのデータアノテーションが欠如している。
そこで,RH20T-Pを提案する。RH20T-Pは,実世界のシナリオにおいて67種類の操作タスクをカバーする約38kのビデオクリップを含む,原始レベルのロボット操作データセットである。
それぞれのクリップは、ロボット操作で一般的な巧妙に設計された原始的なスキルのセットに従って手動で注釈付けされる。
さらに、計画実行CGAパラダイムを標準化し、我々のRH20T-PにRA-Pと呼ばれる典型的なベースラインを実装する。
関連論文リスト
- SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Continual Vision-based Reinforcement Learning with Group Symmetries [18.7526848176769]
我々は,COVERSと呼ばれるグループ対称性を認識する,ユニークな連続視覚に基づく強化学習手法を提案する。
その結果, COVERS は各グループにタスクを正確に割り当て, 一般化能力において既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-21T23:41:02Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。