Fugu-MT 論文翻訳(概要): RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents

論文の概要: RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents

arxiv url: http://arxiv.org/abs/2403.19622v1
Date: Thu, 28 Mar 2024 17:42:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 15:14:42.387438
Title: RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents
Title（参考訳）: RH20T-P:構成可能な一般化エージェントに向けた原始レベルロボットデータセット
Authors: Zeren Chen, Zhelun Shi, Xiaoya Lu, Lehan He, Sucheng Qian, Hao Shu Fang, Zhenfei Yin, Wanli Ouyang, Jing Shao, Yu Qiao, Cewu Lu, Lu Sheng,
Abstract要約: ロボット学習の最終的な目標は、包括的で一般化可能なロボットシステムを取得することである。言語モデルを高レベルプランナとして活用する最近の進歩は,タスクをプリミティブレベルプランに分解することで,タスクの複雑さを低減できることを実証している。将来性はあるものの、コミュニティはまだ構成可能な一般化エージェントに十分な準備が整っていない。
参考スコア（独自算出の注目度）: 107.97394661147102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ultimate goals of robotic learning is to acquire a comprehensive and generalizable robotic system capable of performing both seen skills within the training distribution and unseen skills in novel environments. Recent progress in utilizing language models as high-level planners has demonstrated that the complexity of tasks can be reduced through decomposing them into primitive-level plans, making it possible to generalize on novel robotic tasks in a composable manner. Despite the promising future, the community is not yet adequately prepared for composable generalization agents, particularly due to the lack of primitive-level real-world robotic datasets. In this paper, we propose a primitive-level robotic dataset, namely RH20T-P, which contains about 33000 video clips covering 44 diverse and complicated robotic tasks. Each clip is manually annotated according to a set of meticulously designed primitive skills, facilitating the future development of composable generalization agents. To validate the effectiveness of RH20T-P, we also construct a potential and scalable agent based on RH20T-P, called RA-P. Equipped with two planners specialized in task decomposition and motion planning, RA-P can adapt to novel physical skills through composable generalization. Our website and videos can be found at https://sites.google.com/view/rh20t-primitive/main. Dataset and code will be made available soon.
Abstract（参考訳）: ロボット学習の究極的な目標は、トレーニングディストリビューション内で見られるスキルと、新しい環境で見えないスキルの両方を実行することができる包括的で一般化可能なロボットシステムを取得することである。言語モデルを高レベルプランナーとして活用する最近の進歩は、それらをプリミティブレベルプランに分解することで、タスクの複雑さを低減できることを示しており、新しいロボットタスクを構成可能な方法で一般化することができる。将来性があるにもかかわらず、コミュニティはまだ構成可能な一般化エージェントに十分な準備をしていない。本稿では,44の多様な複雑なロボットタスクをカバーする約33,000のビデオクリップを含む,原始レベルのロボットデータセットRH20T-Pを提案する。各クリップは、精巧に設計された原始的なスキルのセットに従って手動でアノテートされ、構成可能な一般化エージェントの開発を後押しする。 RH20T-Pの有効性を検証するため、RA-Pと呼ばれるRH20T-Pに基づく潜在的でスケーラブルなエージェントを構築した。タスク分解と動作計画に特化した2つのプランナーを備えるRA-Pは、構成可能な一般化により、新しい物理スキルに適応することができる。私たちのWebサイトとビデオはhttps://sites.google.com/view/rh20t-primitive/main.comにある。データセットとコードはまもなく利用可能になる。

関連論文リスト

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization [19.32522292907096]
AGNOSTOSは、操作においてクロスタスクゼロショットの一般化を厳格に評価するために設計された新しいシミュレーションベンチマークである。 X-ICMは、コンテキスト内デモで大きな言語モデルを条件付け、目に見えないタスクに対するアクションシーケンスを予測する手法である。我々はAGNOSTOSとX-ICMが汎用的なロボット操作を促進する貴重なツールになると信じている。
論文参考訳（メタデータ） (2025-05-21T15:35:57Z)
RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文参考訳（メタデータ） (2025-05-03T06:17:18Z)
EmbodiedAgent: A Scalable Hierarchical Approach to Overcome Practical Challenge in Multi-Robot Control [4.163413782205929]
EmbodiedAgentは異種マルチロボット制御のための階層的なフレームワークである。提案手法は,次アクション予測パラダイムと構造化メモリシステムを統合し,タスクを実行可能なロボットスキルに分解する。 100のシナリオにまたがる18,000以上のアノテートされたプランニングインスタンスのデータセットであるMultiPlan+を紹介します。
論文参考訳（メタデータ） (2025-04-14T09:33:42Z)
RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文参考訳（メタデータ） (2025-04-02T19:02:08Z)
GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。 GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。 GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文参考訳（メタデータ） (2024-11-28T18:30:10Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-10-09T02:00:37Z)
Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文参考訳（メタデータ） (2024-07-11T17:31:01Z)
Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文参考訳（メタデータ） (2023-12-14T10:02:55Z)
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文参考訳（メタデータ） (2023-11-02T17:59:21Z)
RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文参考訳（メタデータ） (2023-09-05T03:14:39Z)
RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文参考訳（メタデータ） (2023-07-02T15:33:31Z)
RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文参考訳（メタデータ） (2022-12-13T18:55:15Z)
BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文参考訳（メタデータ） (2022-02-04T07:30:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。