Fugu-MT 論文翻訳(概要): Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

論文の概要: Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

arxiv url: http://arxiv.org/abs/2410.22325v2
Date: Wed, 30 Oct 2024 03:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.999218
Title: Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets
Title（参考訳）: ロボット事前訓練型ロボット:大規模ロボットデータセットからのマニピュレーション中心型ロボット表現
Authors: Guangqi Jiang, Yifei Sun, Tao Huang, Huanyu Li, Yongyuan Liang, Huazhe Xu,
Abstract要約: 本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
参考スコア（独自算出の注目度）: 24.77850617214567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the "manipulation centricity" is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot's proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.
Abstract（参考訳）: 視覚表現の事前学習により、ロボット学習の効率が向上した。大規模なドメイン内のロボットデータセットが不足しているため、以前の研究では、既存の人間のビデオを使ってロボットの視覚表現をトレーニングしていた。有望な結果にもかかわらず、人間のビデオからの表現は必然的に分布シフトの対象となり、タスク完了に不可欠なダイナミクス情報が欠如している。まず、下流ロボット操作タスク(操作中心性)との相関から、事前学習した様々な表現を評価した。興味深いことに、下流タスクに適用した場合、"操作中心性"が成功率の強い指標であることがわかった。これらの知見から,操作中心性を改善するために,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を捉える基礎表現学習フレームワークである,操作中心表現(Manipulation Centric Representation, MCR)を提案する。具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。 4つのシミュレーション領域に20のタスクを持つ経験的結果は、MCRが最強のベースライン法を14.8%上回っていることを証明している。さらに、MCRは3つの現実世界のタスクに対してUR5eアームでデータ効率の学習性能を76.9%向上させる。プロジェクトウェブサイト: https://robots-pretrain-robots.github.io/

関連論文リスト

Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。 PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。 ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文参考訳（メタデータ） (2025-08-13T13:54:51Z)
AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文参考訳（メタデータ） (2025-08-11T05:09:58Z)
H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation [27.585828712261232]
H-RDT(Human to Robotics Diffusion Transformer)は、人間の操作データを利用してロボット操作能力を向上する新しいアプローチである。私たちの重要な洞察は、大規模なエゴセントリックな人間操作ビデオとペアの3Dハンドポーズアノテーションが、自然な操作戦略を捉えたリッチな行動優先を提供するということです。本研究では,(1)大規模な人間操作データに対する事前トレーニング,(2)モジュール型アクションエンコーダとデコーダを用いたロボット固有のデータに対するクロスエボディメント微調整という2段階の訓練パラダイムを導入する。
論文参考訳（メタデータ） (2025-07-31T13:06:59Z)
Predicting Human Impressions of Robot Performance During Navigation Tasks [8.01980632893357]
本研究では,非言語行動手がかりと機械学習技術を用いて,ロボット行動に対する人々の印象を予測する可能性を検討する。以上の結果から,表情だけでロボット性能の人的印象について有用な情報が得られることが示唆された。教師付き学習技術は、ほとんどの場合、人間のロボット性能予測よりも優れていたため、有望であった。
論文参考訳（メタデータ） (2023-10-17T21:12:32Z)
What Matters to You? Towards Visual Representation Alignment for Robot Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文参考訳（メタデータ） (2023-10-11T23:04:07Z)
Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文参考訳（メタデータ） (2023-08-07T14:24:52Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Where is my hand? Deep hand segmentation for visual self-recognition in humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文参考訳（メタデータ） (2021-02-09T10:34:32Z)
A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文参考訳（メタデータ） (2020-12-14T22:18:39Z)
Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文参考訳（メタデータ） (2019-12-30T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。