論文の概要: RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking
- arxiv url: http://arxiv.org/abs/2309.01918v1
- Date: Tue, 5 Sep 2023 03:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 16:44:30.451571
- Title: RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking
- Title(参考訳): RoboAgent:Semantic AugmentationとAction Chunkingによるロボット操作の一般化と効率性
- Authors: Homanga Bharadhwaj, Jay Vakil, Mohit Sharma, Abhinav Gupta, Shubham
Tulsiani, Vikash Kumar
- Abstract要約: マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
- 参考スコア(独自算出の注目度): 54.776890150458385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The grand aim of having a single robot that can manipulate arbitrary objects
in diverse settings is at odds with the paucity of robotics datasets. Acquiring
and growing such datasets is strenuous due to manual efforts, operational
costs, and safety challenges. A path toward such an universal agent would
require a structured framework capable of wide generalization but trained
within a reasonable data budget. In this paper, we develop an efficient system
(RoboAgent) for training universal agents capable of multi-task manipulation
skills using (a) semantic augmentations that can rapidly multiply existing
datasets and (b) action representations that can extract performant policies
with small yet diverse multi-modal datasets without overfitting. In addition,
reliable task conditioning and an expressive policy architecture enable our
agent to exhibit a diverse repertoire of skills in novel situations specified
using language commands. Using merely 7500 demonstrations, we are able to train
a single agent capable of 12 unique skills, and demonstrate its generalization
over 38 tasks spread across common daily activities in diverse kitchen scenes.
On average, RoboAgent outperforms prior methods by over 40% in unseen
situations while being more sample efficient and being amenable to capability
improvements and extensions through fine-tuning. Videos at
https://robopen.github.io/
- Abstract(参考訳): さまざまな設定で任意のオブジェクトを操作できる単一のロボットを持つことは、ロボットのデータセットの質に反する。
このようなデータセットの取得と成長は、手作業や運用コスト、安全性上の課題などによって困難である。
そのような普遍的なエージェントへの道は、広く一般化できるが合理的なデータ予算内で訓練される構造化されたフレームワークを必要とするだろう。
本稿では,マルチタスク操作能力を有するユニバーサルエージェントを訓練するための効率的なシステム(RoboAgent)を開発する。
(a)既存のデータセットを迅速に乗算できるセマンティック拡張
b) 過度に適合することなく,小型かつ多様なマルチモーダルデータセットを用いて実行ポリシーを抽出できる行動表現。
さらに、信頼性の高いタスク条件付けと表現型ポリシーアーキテクチャにより、言語コマンドを使用して指定された新しい状況において、エージェントは多様なスキルのレパートリーを表現できる。
たった7500のデモンストレーションを使って、12のユニークなスキルを持つ1つのエージェントを訓練し、さまざまなキッチンシーンで共通の日常活動にまたがる38以上のタスクの一般化を実証しました。
平均して、roboagentは、未発見の状況では40%以上前のメソッドを上回り、よりサンプル効率が高く、微調整による能力改善や拡張に適している。
ビデオ: https://robopen.github.io/
関連論文リスト
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance [66.51390591688802]
バリューガイド型ポリシーステアリング(V-GPS)は、ポリシーの重みを微調整したり、アクセスしたりすることなく、幅広い種類のジェネラリストポリシーと互換性がある。
同じ値関数は、異なるアーキテクチャで5つの最先端ポリシーの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:46:26Z) - Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。
実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:23:02Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation [33.10577695383743]
ロボット操作のためのマルチタスク汎用エージェントRoboCatを提案する。
このデータは、シミュレートされた本物のロボットアームから、さまざまな観察とアクションのセットでモーターコントロールスキルの大規模なレパートリーにまたがる。
RoboCatでは、ゼロショットだけでなく、100-1000例のみを用いて適応することで、新しいタスクやロボットに一般化する能力を実証する。
論文 参考訳(メタデータ) (2023-06-20T17:35:20Z) - Learning Multi-Arm Manipulation Through Collaborative Teleoperation [63.35924708783826]
模倣学習(il)はロボットに操作タスクを実行するための強力なパラダイムである。
多くの現実世界のタスクは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。
複数のリモートユーザが同時にロボットアームを遠隔操作できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。
論文 参考訳(メタデータ) (2020-12-12T05:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。