論文の概要: General Flow as Foundation Affordance for Scalable Robot Learning
- arxiv url: http://arxiv.org/abs/2401.11439v1
- Date: Sun, 21 Jan 2024 09:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:36:58.143948
- Title: General Flow as Foundation Affordance for Scalable Robot Learning
- Title(参考訳): スケーラブルなロボット学習のための基礎的フロー
- Authors: Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao
- Abstract要約: 大規模RGBD人間のビデオデータセットから直接、言語条件付き予測モデルを開発する。
提案手法は,18のタスクを6シーンでカバーし,人間とロボットのスキル伝達において81%の成功率を達成した。
- 参考スコア(独自算出の注目度): 19.163920699541208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of acquiring real-world manipulation skills with a
scalable framework.Inspired by the success of large-scale auto-regressive
prediction in Large Language Models (LLMs), we hold the belief that identifying
an appropriate prediction target capable of leveraging large-scale datasets is
crucial for achieving efficient and universal learning. Therefore, we propose
to utilize flow, which represents the future trajectories of 3D points on
objects of interest, as an ideal prediction target in robot learning. To
exploit scalable data resources, we turn our attention to cross-embodiment
datasets. We develop, for the first time, a language-conditioned prediction
model directly from large-scale RGBD human video datasets. Our predicted flow
offers actionable geometric and physics guidance, thus facilitating stable
zero-shot skill transfer in real-world scenarios.We deploy our method with a
policy based on closed-loop flow prediction. Remarkably, without any additional
training, our method achieves an impressive 81% success rate in human-to-robot
skill transfer, covering 18 tasks in 6 scenes. Our framework features the
following benefits: (1) scalability: leveraging cross-embodiment data
resources; (2) universality: multiple object categories, including rigid,
articulated, and soft bodies; (3) stable skill transfer: providing actionable
guidance with a small inference domain-gap. These lead to a new pathway towards
scalable general robot learning. Data, code, and model weights will be made
publicly available.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)における大規模自己回帰予測の成功に触発されて,大規模データセットを活用可能な適切な予測対象を特定することが,効率的で普遍的な学習を実現する上で不可欠である,と信じている。
そこで本研究では,対象物に対する3dポイントの将来の軌跡を表すフローを,ロボット学習における理想的な予測対象として利用する。
スケーラブルなデータリソースを活用するために、私たちは注意をクロスエボディメントデータセットに向けます。
我々は,大規模なrgbdヒューマンビデオデータセットから直接言語条件付き予測モデルを開発した。
予測フローは,実世界のシナリオにおいて安定したゼロショットスキルの伝達が促進され,クローズドループフロー予測に基づくポリシーで手法を展開する。
そこで本手法では,18のタスクを6場面でカバーし,人間とロボットのスキル伝達において81%の成功率を達成した。
本フレームワークは,(1)拡張性: クロス・エボディメント・データリソースの活用,(2)普遍性: 剛性,調音性,軟質体を含む複数のオブジェクトカテゴリ;(3)安定的なスキル伝達: 最小の推論ドメインギャップで実行可能なガイダンスを提供する。
これにより、スケーラブルな汎用ロボット学習への新たな道が導かれる。
データ、コード、モデルの重み付けが公開される予定だ。
関連論文リスト
- Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - WANDR: Intention-guided Human Motion Generation [67.07028110459787]
我々は,アバターの初期ポーズとゴールの3D位置を取り,ゴール位置にエンドエフェクタ(抵抗)を配置する自然な人間の動きを生成するデータ駆動モデルであるWADRを紹介する。
インテンションはエージェントをゴールに誘導し、サブゴールやモーションパス全体を定義することなく、新しい状況にインタラクティブに世代を適応させる。
提案手法を広範に評価し,3次元目標に到達した自然および長期の動作と,見当たらない目標位置を生成できることを実証する。
論文 参考訳(メタデータ) (2024-04-23T10:20:17Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D
Human Keypoints [25.550524178542833]
歩行者の横断行動認識と軌道予測のための新しいマルチタスク学習フレームワークを提案する。
生のセンサデータから抽出した3D人間のキーポイントを用いて、人間のポーズや活動に関する豊富な情報をキャプチャする。
提案手法は,幅広い評価指標を用いて最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T18:27:48Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。