論文の概要: Composing Pre-Trained Object-Centric Representations for Robotics From "What" and "Where" Foundation Models
- arxiv url: http://arxiv.org/abs/2404.13474v1
- Date: Sat, 20 Apr 2024 21:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:50:40.711773
- Title: Composing Pre-Trained Object-Centric Representations for Robotics From "What" and "Where" Foundation Models
- Title(参考訳): ロボットのための事前学習型オブジェクト中心表現を「何」と「何」を基礎モデルから作成する
- Authors: Junyao Shi, Jianing Qian, Yecheng Jason Ma, Dinesh Jayaraman,
- Abstract要約: ロボット制御のための事前学習されたオブジェクト中心表現を構築するための新しいフレームワークを提案する。
トレーニング済みモデルからのセグメンテーションを使用して、タイムステップ、シーン内のさまざまなエンティティを安定して特定し、"どこで"情報をキャプチャします。
各種のシミュレーションおよび実ロボットタスクにおいて,POCRで訓練されたロボットマニピュレータの模倣ポリシーにより,より優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 27.381128884213812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have recently been large advances both in pre-training visual representations for robotic control and segmenting unknown category objects in general images. To leverage these for improved robot learning, we propose $\textbf{POCR}$, a new framework for building pre-trained object-centric representations for robotic control. Building on theories of "what-where" representations in psychology and computer vision, we use segmentations from a pre-trained model to stably locate across timesteps, various entities in the scene, capturing "where" information. To each such segmented entity, we apply other pre-trained models that build vector descriptions suitable for robotic control tasks, thus capturing "what" the entity is. Thus, our pre-trained object-centric representations for control are constructed by appropriately combining the outputs of off-the-shelf pre-trained models, with no new training. On various simulated and real robotic tasks, we show that imitation policies for robotic manipulators trained on POCR achieve better performance and systematic generalization than state of the art pre-trained representations for robotics, as well as prior object-centric representations that are typically trained from scratch.
- Abstract(参考訳): 近年、ロボット制御のための事前学習型視覚表現と、未知のカテゴリオブジェクトを一般画像にセグメント化において大きな進歩を遂げている。
ロボット学習の改善にこれらを活用するために,ロボット制御のための事前学習対象中心表現を構築するための新しいフレームワークである$\textbf{POCR}$を提案する。
心理学やコンピュータビジョンにおける「どこ」の表現の理論に基づいて、事前訓練されたモデルからのセグメンテーションを用いて、シーン内の様々な実体のタイムステップを安定して発見し、「どこで」情報をキャプチャする。
このようなセグメント化された各エンティティに対して,ロボット制御タスクに適したベクトル記述を構築するための事前学習モデルを適用し,そのエンティティが何であるかをキャプチャする。
そこで,本研究では,既訓練モデルの出力を新たなトレーニングなしで適切に組み合わせることで,制御のための事前学習対象中心表現を構築した。
各種のロボットタスクにおいて、POCRで訓練されたロボットマニピュレータの模倣ポリシーは、ロボット工学の最先端の事前訓練された表現や、通常スクラッチから訓練された以前のオブジェクト中心の表現よりも、優れたパフォーマンスと体系的な一般化を実現していることを示す。
関連論文リスト
- Toward General-Purpose Robots via Foundation Models: A Survey and
Meta-Analysis [73.89558418030418]
既存のロボットシステムは、特定のタスクのために設計され、特定のデータセットに基づいて訓練され、特定の環境にデプロイされている。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,我々は,基礎モデルをロボット工学に適用する方法を探究した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Canonical mapping as a general-purpose object descriptor for robotic
manipulation [0.0]
準ユニバーサルでフレキシブルなオブジェクト記述子としてカノニカルマッピングを提案する。
本研究では,1つの事前学習された標準写像モデルから共通オブジェクト表現を導出できることを実証する。
2つのロボットアームを用いた多段階実験を行い、知覚アプローチの堅牢性を実証した。
論文 参考訳(メタデータ) (2023-03-02T15:09:25Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。