論文の概要: Robot Learning with Sensorimotor Pre-training
- arxiv url: http://arxiv.org/abs/2306.10007v1
- Date: Fri, 16 Jun 2023 17:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 12:33:07.984322
- Title: Robot Learning with Sensorimotor Pre-training
- Title(参考訳): sensorimotor pre-trainingを用いたロボット学習
- Authors: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor
Darrell, Jitendra Malik
- Abstract要約: ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
私たちは、モーションプランニングとモデルベースの把握アルゴリズムを組み合わせて、9ヶ月で2万の現実世界の軌跡のデータセットを収集します。
- 参考スコア(独自算出の注目度): 113.2736538245381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a self-supervised sensorimotor pre-training approach for robotics.
Our model, called RPT, is a Transformer that operates on sequences of
sensorimotor tokens. Given a sequence of camera images, proprioceptive robot
states, and past actions, we encode the interleaved sequence into tokens, mask
out a random subset, and train a model to predict the masked-out content. We
hypothesize that if the robot can predict the missing content it has acquired a
good model of the physical world that can enable it to act. RPT is designed to
operate on latent visual representations which makes prediction tractable,
enables scaling to 10x larger models, and 10 Hz inference on a real robot. To
evaluate our approach, we collect a dataset of 20,000 real-world trajectories
over 9 months using a combination of motion planning and model-based grasping
algorithms. We find that pre-training on this data consistently outperforms
training from scratch, leads to 2x improvements in the block stacking task, and
has favorable scaling properties.
- Abstract(参考訳): 本稿では,ロボットに対する自己教師付きセンサモデレータの事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
カメラ画像のシーケンス、摂動ロボットの状態、過去のアクションが与えられ、インターリーブされたシーケンスをトークンにエンコードし、ランダムなサブセットをマスクアウトし、マスクアウトされたコンテンツを予測するモデルをトレーニングします。
ロボットが不足したコンテンツを予測することができれば、動作可能な物理世界の優れたモデルが得られたという仮説を立てる。
RPTは、予測をトラクタブルにし、10倍大きなモデルにスケーリングし、実際のロボットで10Hzの推論を可能にする潜在視覚表現を操作するように設計されている。
提案手法を評価するために,動作計画とモデルに基づく把握アルゴリズムを組み合わせて,実世界の2万の軌跡のデータセットを9ヶ月にわたって収集した。
このデータの事前トレーニングは、スクラッチからトレーニングを一貫して上回り、ブロック積み上げタスクの2倍の改善をもたらし、良好なスケーリング特性を持つことがわかった。
関連論文リスト
- Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Teaching Robots to Build Simulations of Themselves [7.886658271375681]
本稿では,簡単な生ビデオデータのみを用いて,ロボットの形状,運動学,運動制御をモデル化し,予測するための自己教師付き学習フレームワークを提案する。
ロボットは自分の動きを観察することで、自分自身をシミュレートし、様々なタスクのために空間的な動きを予測する能力を学ぶ。
論文 参考訳(メタデータ) (2023-11-20T20:03:34Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Full-Body Visual Self-Modeling of Robot Morphologies [29.76701883250049]
身体の内部計算モデルは、ロボットや動物が行動の計画と制御を行う能力の基礎である。
完全データ駆動型自己モデリングの最近の進歩により、マシンはタスク非依存の相互作用データから直接フォワードキネマティクスを学習できるようになった。
ここでは、フォワードキネマティクスを直接モデル化するのではなく、空間占有クエリに答えることのできる、より有用な自己モデリング形式を提案する。
論文 参考訳(メタデータ) (2021-11-11T18:58:07Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。