論文の概要: FP3: A 3D Foundation Policy for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2503.08950v1
- Date: Tue, 11 Mar 2025 23:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:35:03.116057
- Title: FP3: A 3D Foundation Policy for Robotic Manipulation
- Title(参考訳): FP3:ロボット操作のための3Dファウンデーションポリシー
- Authors: Rujia Yang, Geng Chen, Chuan Wen, Yang Gao,
- Abstract要約: ロボット操作のための最初の大規模3D基礎政策モデルであるFP3を紹介する。
わずか80のデモで、FP3は、見えないオブジェクトを持つ新しい環境で90%以上の成功率で新しいタスクを学ぶことができる。
- 参考スコア(独自算出の注目度): 12.115347477632783
- License:
- Abstract: Following its success in natural language processing and computer vision, foundation models that are pre-trained on large-scale multi-task datasets have also shown great potential in robotics. However, most existing robot foundation models rely solely on 2D image observations, ignoring 3D geometric information, which is essential for robots to perceive and reason about the 3D world. In this paper, we introduce FP3, a first large-scale 3D foundation policy model for robotic manipulation. FP3 builds on a scalable diffusion transformer architecture and is pre-trained on 60k trajectories with point cloud observations. With the model design and diverse pre-training data, FP3 can be efficiently fine-tuned for downstream tasks while exhibiting strong generalization capabilities. Experiments on real robots demonstrate that with only 80 demonstrations, FP3 is able to learn a new task with over 90% success rates in novel environments with unseen objects, significantly surpassing existing robot foundation models.
- Abstract(参考訳): 自然言語処理とコンピュータビジョンの成功に続いて、大規模マルチタスクデータセットで事前訓練された基礎モデルも、ロボット工学に大きな可能性を示している。
しかし、既存のロボット基礎モデルは、ロボットが3Dの世界を知覚し、推論するために不可欠である3D幾何学的情報を無視して、2D画像観察のみに依存している。
本稿では,ロボット操作のための最初の大規模3D基礎政策モデルであるFP3を紹介する。
FP3はスケーラブルな拡散トランスフォーマーアーキテクチャ上に構築され、60k軌道で事前訓練され、点雲観測を行う。
モデル設計と多様な事前学習データにより、FP3は強力な一般化能力を示しながら、下流タスクを効率的に微調整することができる。
実際のロボットの実験では、わずか80回のデモで、FP3は、見えないオブジェクトを持つ新しい環境で90%以上の成功率で新しいタスクを学習でき、既存のロボット基盤モデルを大幅に上回っている。
関連論文リスト
- Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。
実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T18:59:01Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Robo360: A 3D Omnispective Multi-Material Robotic Manipulation Dataset [26.845899347446807]
近年の3Dアルゴリズムの活用への関心は、ロボットの知覚と身体的理解の進歩につながっている。
我々は、ロボット操作と密集したビューカバレッジを備えたデータセットであるRobo360を提示する。
3Dとロボット制御における物理世界理解の交差点では、Robo360が新たな研究の道を開くことを願っている。
論文 参考訳(メタデータ) (2023-12-09T09:12:03Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - ExAug: Robot-Conditioned Navigation Policies via Geometric Experience
Augmentation [73.63212031963843]
本研究では,多様な環境における複数のデータセットから異なるロボットプラットフォームを体験するための新しいフレームワークであるExAugを提案する。
トレーニングされたポリシーは、屋内と屋外の障害物のある3つの異なるカメラを備えた2つの新しいロボットプラットフォームで評価される。
論文 参考訳(メタデータ) (2022-10-14T01:32:15Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。