論文の概要: 4D Visual Pre-training for Robot Learning
- arxiv url: http://arxiv.org/abs/2508.17230v1
- Date: Sun, 24 Aug 2025 07:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.415836
- Title: 4D Visual Pre-training for Robot Learning
- Title(参考訳): ロボット学習のための4次元視覚事前学習
- Authors: Chengkai Hou, Yanjie Ze, Yankai Fu, Zeyu Gao, Songbo Hu, Yue Yu, Shanghang Zhang, Huazhe Xu,
- Abstract要約: ロボット工学のためのWebスケールデータセットから得られた一般的な視覚表現は、近年大きな成功を収めている。
しかし、これらの事前訓練された表現は、主に2D画像に基づいており、世界の固有の3Dの性質を無視している。
代替として、すべての3D表現を改善することのできる、一般的なビジュアル事前学習フレームワークを模索しています。
我々のフレームワークはFVPと呼ばれ、現実世界のロボット学習のための新しい4Dビジュアル事前学習フレームワークである。
- 参考スコア(独自算出の注目度): 71.22906081161324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: General visual representations learned from web-scale datasets for robotics have achieved great success in recent years, enabling data-efficient robot learning on manipulation tasks; yet these pre-trained representations are mostly on 2D images, neglecting the inherent 3D nature of the world. However, due to the scarcity of large-scale 3D data, it is still hard to extract a universal 3D representation from web datasets. Instead, we are seeking a general visual pre-training framework that could improve all 3D representations as an alternative. Our framework, called FVP, is a novel 4D Visual Pre-training framework for real-world robot learning. FVP frames the visual pre-training objective as a next-point-cloud-prediction problem, models the prediction model as a diffusion model, and pre-trains the model on the larger public datasets directly. Across twelve real-world manipulation tasks, FVP boosts the average success rate of 3D Diffusion Policy (DP3) for these tasks by 28%. The FVP pre-trained DP3 achieves state-of-the-art performance across imitation learning methods. Moreover, the efficacy of FVP adapts across various point cloud encoders and datasets. Finally, we apply FVP to the RDT-1B, a larger Vision-Language-Action robotic model, enhancing its performance on various robot tasks. Our project page is available at: https://4d- visual-pretraining.github.io/.
- Abstract(参考訳): ロボット工学のためのWebスケールデータセットから得られた一般的な視覚表現は、操作タスクにおけるデータ効率のよいロボット学習を可能にするなど、近年大きな成功を収めている。
しかし、大規模な3Dデータの不足のため、Webデータセットから普遍的な3D表現を抽出することは依然として困難である。
代わりに、代替としてすべての3D表現を改善することのできる、一般的なビジュアル事前学習フレームワークを模索しています。
われわれのフレームワークはFVPと呼ばれ、現実世界のロボット学習のための新しい4Dビジュアル事前学習フレームワークである。
FVPは、視覚的事前学習目標を、次のポイントクラウド予測問題として、予測モデルを拡散モデルとしてモデル化し、より大きな公開データセット上でモデルを直接トレーニングする。
12個の実世界の操作タスクにおいて、FVPはこれらのタスクに対する3D拡散ポリシー(DP3)の平均成功率を28%向上させる。
FVP事前訓練されたDP3は、模倣学習方法間で最先端のパフォーマンスを達成する。
さらに、FVPの有効性は、様々なポイントクラウドエンコーダやデータセットに適応する。
最後に、より大型のビジョン・ランゲージ・アクション・ロボットモデルであるRTT-1BにFVPを適用し、様々なロボットタスクの性能を向上させる。
私たちのプロジェクトページは、https://4d- visual-pretraining.github.io/.com/で公開されています。
関連論文リスト
- Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。
実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T18:59:01Z) - 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
論文 参考訳(メタデータ) (2024-06-26T08:17:59Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。