論文の概要: Robot Learning with Sensorimotor Pre-training
- arxiv url: http://arxiv.org/abs/2306.10007v2
- Date: Thu, 14 Dec 2023 16:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:40:47.503166
- Title: Robot Learning with Sensorimotor Pre-training
- Title(参考訳): sensorimotor pre-trainingを用いたロボット学習
- Authors: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor
Darrell, Jitendra Malik
- Abstract要約: ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
- 参考スコア(独自算出の注目度): 98.7755895548928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a self-supervised sensorimotor pre-training approach for robotics.
Our model, called RPT, is a Transformer that operates on sequences of
sensorimotor tokens. Given a sequence of camera images, proprioceptive robot
states, and actions, we encode the sequence into tokens, mask out a subset, and
train a model to predict the missing content from the rest. We hypothesize that
if a robot can predict the masked-out content it will have acquired a good
model of the physical world that can enable it to act. RPT is designed to
operate on latent visual representations which makes prediction tractable,
enables scaling to larger models, and allows fast inference on a real robot. To
evaluate our approach, we collected a dataset of 20,000 real-world trajectories
over 9 months using a combination of motion planning and grasping algorithms.
We find that sensorimotor pre-training consistently outperforms training from
scratch, has favorable scaling properties, and enables transfer across
different tasks, environments, and robots.
- Abstract(参考訳): 本稿では,ロボットに対する自己教師付きセンサモデレータの事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
カメラ画像のシーケンス、プロプリセプティブロボットの状態、アクションが与えられたら、シーケンスをトークンにエンコードし、サブセットをマスクアウトし、残りの部分から欠落したコンテンツを予測するためにモデルを訓練する。
我々は、もしロボットがマスクされたコンテンツを予測することができるなら、それが作用できる物理世界の良いモデルを得るだろうと仮定する。
RPTは、予測を抽出し、より大きなモデルへのスケーリングを可能にし、実際のロボットで高速な推論を可能にする潜在視覚表現を操作するように設計されている。
提案手法を評価するために,動作計画と把握アルゴリズムの組み合わせを用いて,9ヶ月で2万件の現実世界の軌跡のデータセットを収集した。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にする。
関連論文リスト
- Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Teaching Robots to Build Simulations of Themselves [7.886658271375681]
本稿では,簡単な生ビデオデータのみを用いて,ロボットの形状,運動学,運動制御をモデル化し,予測するための自己教師付き学習フレームワークを提案する。
ロボットは自分の動きを観察することで、自分自身をシミュレートし、様々なタスクのために空間的な動きを予測する能力を学ぶ。
論文 参考訳(メタデータ) (2023-11-20T20:03:34Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Full-Body Visual Self-Modeling of Robot Morphologies [29.76701883250049]
身体の内部計算モデルは、ロボットや動物が行動の計画と制御を行う能力の基礎である。
完全データ駆動型自己モデリングの最近の進歩により、マシンはタスク非依存の相互作用データから直接フォワードキネマティクスを学習できるようになった。
ここでは、フォワードキネマティクスを直接モデル化するのではなく、空間占有クエリに答えることのできる、より有用な自己モデリング形式を提案する。
論文 参考訳(メタデータ) (2021-11-11T18:58:07Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。