論文の概要: PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training
- arxiv url: http://arxiv.org/abs/2209.11133v1
- Date: Thu, 22 Sep 2022 16:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:42:31.800471
- Title: PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training
- Title(参考訳): pact: 自己回帰型ロボット訓練のための知覚行動因果トランスフォーマ
- Authors: Rogerio Bonatti, Sai Vemprala, Shuang Ma, Felipe Frujeri, Shuhang
Chen, Ashish Kapoor
- Abstract要約: 本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 25.50131893785007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotics has long been a field riddled with complex systems architectures
whose modules and connections, whether traditional or learning-based, require
significant human expertise and prior knowledge. Inspired by large pre-trained
language models, this work introduces a paradigm for pre-training a general
purpose representation that can serve as a starting point for multiple tasks on
a given robot. We present the Perception-Action Causal Transformer (PACT), a
generative transformer-based architecture that aims to build representations
directly from robot data in a self-supervised fashion. Through autoregressive
prediction of states and actions over time, our model implicitly encodes
dynamics and behaviors for a particular robot. Our experimental evaluation
focuses on the domain of mobile agents, where we show that this robot-specific
representation can function as a single starting point to achieve distinct
tasks such as safe navigation, localization and mapping. We evaluate two form
factors: a wheeled robot that uses a LiDAR sensor as perception input (MuSHR),
and a simulated agent that uses first-person RGB images (Habitat). We show that
finetuning small task-specific networks on top of the larger pretrained model
results in significantly better performance compared to training a single model
from scratch for all tasks simultaneously, and comparable performance to
training a separate large model for each task independently. By sharing a
common good-quality representation across tasks we can lower overall model
capacity and speed up the real-time deployment of such systems.
- Abstract(参考訳): ロボットは長年、モジュールと接続が従来のものであれ学習ベースであれ、人間の専門知識や事前知識を必要とする複雑なシステムアーキテクチャに根ざした分野だった。
大規模な事前学習型言語モデルにインスパイアされた本研究は、与えられたロボット上の複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
時間とともに状態や行動の自己回帰予測を通じて、我々のモデルは特定のロボットの動作や動作を暗黙的に符号化する。
実験では,移動エージェントの領域に着目し,このロボット固有の表現が単一出発点として機能し,安全なナビゲーション,局所化,マッピングなどの異なるタスクを実現できることを示す。
我々は、LiDARセンサーを知覚入力(MuSHR)として使用する車輪付きロボットと、一対一のRGB画像(Habitat)を用いたシミュレーションエージェントの2つの形態因子を評価する。
提案手法では,事前学習したモデル上で小さなタスク固有のネットワークを微調整することで,すべてのタスクに対して1つのモデルをスクラッチから同時にトレーニングするのに比べ,パフォーマンスが大幅に向上することを示す。
タスク間で共通の良質な表現を共有することで、全体のモデルのキャパシティを低くし、そのようなシステムのリアルタイムデプロイメントを高速化できます。
関連論文リスト
- LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation [33.10577695383743]
ロボット操作のためのマルチタスク汎用エージェントRoboCatを提案する。
このデータは、シミュレートされた本物のロボットアームから、さまざまな観察とアクションのセットでモーターコントロールスキルの大規模なレパートリーにまたがる。
RoboCatでは、ゼロショットだけでなく、100-1000例のみを用いて適応することで、新しいタスクやロボットに一般化する能力を実証する。
論文 参考訳(メタデータ) (2023-06-20T17:35:20Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。