論文の概要: General Flow as Foundation Affordance for Scalable Robot Learning
- arxiv url: http://arxiv.org/abs/2401.11439v1
- Date: Sun, 21 Jan 2024 09:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:36:58.143948
- Title: General Flow as Foundation Affordance for Scalable Robot Learning
- Title(参考訳): スケーラブルなロボット学習のための基礎的フロー
- Authors: Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao
- Abstract要約: 大規模RGBD人間のビデオデータセットから直接、言語条件付き予測モデルを開発する。
提案手法は,18のタスクを6シーンでカバーし,人間とロボットのスキル伝達において81%の成功率を達成した。
- 参考スコア(独自算出の注目度): 19.163920699541208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of acquiring real-world manipulation skills with a
scalable framework.Inspired by the success of large-scale auto-regressive
prediction in Large Language Models (LLMs), we hold the belief that identifying
an appropriate prediction target capable of leveraging large-scale datasets is
crucial for achieving efficient and universal learning. Therefore, we propose
to utilize flow, which represents the future trajectories of 3D points on
objects of interest, as an ideal prediction target in robot learning. To
exploit scalable data resources, we turn our attention to cross-embodiment
datasets. We develop, for the first time, a language-conditioned prediction
model directly from large-scale RGBD human video datasets. Our predicted flow
offers actionable geometric and physics guidance, thus facilitating stable
zero-shot skill transfer in real-world scenarios.We deploy our method with a
policy based on closed-loop flow prediction. Remarkably, without any additional
training, our method achieves an impressive 81% success rate in human-to-robot
skill transfer, covering 18 tasks in 6 scenes. Our framework features the
following benefits: (1) scalability: leveraging cross-embodiment data
resources; (2) universality: multiple object categories, including rigid,
articulated, and soft bodies; (3) stable skill transfer: providing actionable
guidance with a small inference domain-gap. These lead to a new pathway towards
scalable general robot learning. Data, code, and model weights will be made
publicly available.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)における大規模自己回帰予測の成功に触発されて,大規模データセットを活用可能な適切な予測対象を特定することが,効率的で普遍的な学習を実現する上で不可欠である,と信じている。
そこで本研究では,対象物に対する3dポイントの将来の軌跡を表すフローを,ロボット学習における理想的な予測対象として利用する。
スケーラブルなデータリソースを活用するために、私たちは注意をクロスエボディメントデータセットに向けます。
我々は,大規模なrgbdヒューマンビデオデータセットから直接言語条件付き予測モデルを開発した。
予測フローは,実世界のシナリオにおいて安定したゼロショットスキルの伝達が促進され,クローズドループフロー予測に基づくポリシーで手法を展開する。
そこで本手法では,18のタスクを6場面でカバーし,人間とロボットのスキル伝達において81%の成功率を達成した。
本フレームワークは,(1)拡張性: クロス・エボディメント・データリソースの活用,(2)普遍性: 剛性,調音性,軟質体を含む複数のオブジェクトカテゴリ;(3)安定的なスキル伝達: 最小の推論ドメインギャップで実行可能なガイダンスを提供する。
これにより、スケーラブルな汎用ロボット学習への新たな道が導かれる。
データ、コード、モデルの重み付けが公開される予定だ。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - An Unbiased Look at Datasets for Visuo-Motor Pre-Training [20.094244564603184]
データセットの選択は、このパラダイムの成功と同じくらい重要です。
従来の視覚データセットは、ビジュオモダ表現学習の驚くほど競争力のある選択肢である。
シミュレーションベンチマークは実世界のパフォーマンスの信頼できるプロキシではないことを示す。
論文 参考訳(メタデータ) (2023-10-13T17:59:02Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive
Language-Image Pre-training [78.63699436330165]
クロスモーダルな事前トレーニングは、幅広い下流タスクで顕著なパフォーマンスを示している。
オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
我々は,連続した画像とテキストのペアを入力として,コントラスト言語画像の事前学習のための,データ駆動型自動モデル生成アルゴリズムであるGrowCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-22T10:07:49Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。