Fugu-MT 論文翻訳(概要): Composing Pre-Trained Object-Centric Representations for Robotics From "What" and "Where" Foundation Models

論文の概要: Composing Pre-Trained Object-Centric Representations for Robotics From "What" and "Where" Foundation Models

arxiv url: http://arxiv.org/abs/2404.13474v1
Date: Sat, 20 Apr 2024 21:51:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 18:50:40.711773
Title: Composing Pre-Trained Object-Centric Representations for Robotics From "What" and "Where" Foundation Models
Title（参考訳）: ロボットのための事前学習型オブジェクト中心表現を「何」と「何」を基礎モデルから作成する
Authors: Junyao Shi, Jianing Qian, Yecheng Jason Ma, Dinesh Jayaraman,
Abstract要約: ロボット制御のための事前学習されたオブジェクト中心表現を構築するための新しいフレームワークを提案する。トレーニング済みモデルからのセグメンテーションを使用して、タイムステップ、シーン内のさまざまなエンティティを安定して特定し、"どこで"情報をキャプチャします。各種のシミュレーションおよび実ロボットタスクにおいて,POCRで訓練されたロボットマニピュレータの模倣ポリシーにより,より優れた性能が得られることを示す。
参考スコア（独自算出の注目度）: 27.381128884213812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There have recently been large advances both in pre-training visual representations for robotic control and segmenting unknown category objects in general images. To leverage these for improved robot learning, we propose $\textbf{POCR}$, a new framework for building pre-trained object-centric representations for robotic control. Building on theories of "what-where" representations in psychology and computer vision, we use segmentations from a pre-trained model to stably locate across timesteps, various entities in the scene, capturing "where" information. To each such segmented entity, we apply other pre-trained models that build vector descriptions suitable for robotic control tasks, thus capturing "what" the entity is. Thus, our pre-trained object-centric representations for control are constructed by appropriately combining the outputs of off-the-shelf pre-trained models, with no new training. On various simulated and real robotic tasks, we show that imitation policies for robotic manipulators trained on POCR achieve better performance and systematic generalization than state of the art pre-trained representations for robotics, as well as prior object-centric representations that are typically trained from scratch.
Abstract（参考訳）: 近年、ロボット制御のための事前学習型視覚表現と、未知のカテゴリオブジェクトを一般画像にセグメント化において大きな進歩を遂げている。ロボット学習の改善にこれらを活用するために,ロボット制御のための事前学習対象中心表現を構築するための新しいフレームワークである$\textbf{POCR}$を提案する。心理学やコンピュータビジョンにおける「どこ」の表現の理論に基づいて、事前訓練されたモデルからのセグメンテーションを用いて、シーン内の様々な実体のタイムステップを安定して発見し、「どこで」情報をキャプチャする。このようなセグメント化された各エンティティに対して,ロボット制御タスクに適したベクトル記述を構築するための事前学習モデルを適用し,そのエンティティが何であるかをキャプチャする。そこで,本研究では,既訓練モデルの出力を新たなトレーニングなしで適切に組み合わせることで,制御のための事前学習対象中心表現を構築した。各種のロボットタスクにおいて、POCRで訓練されたロボットマニピュレータの模倣ポリシーは、ロボット工学の最先端の事前訓練された表現や、通常スクラッチから訓練された以前のオブジェクト中心の表現よりも、優れたパフォーマンスと体系的な一般化を実現していることを示す。

関連論文リスト

Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文参考訳（メタデータ） (2025-02-18T18:59:01Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文参考訳（メタデータ） (2024-09-21T08:45:16Z)
HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文参考訳（メタデータ） (2024-07-26T17:59:52Z)
Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文参考訳（メタデータ） (2023-12-14T10:02:55Z)
What Matters to You? Towards Visual Representation Alignment for Robot Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文参考訳（メタデータ） (2023-10-11T23:04:07Z)
Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文参考訳（メタデータ） (2023-08-07T14:24:52Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。 VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-05-28T17:53:09Z)
PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2022-09-22T16:20:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。