論文の概要: PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.03782v1
- Date: Wed, 07 Jan 2026 10:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.177999
- Title: PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
- Title(参考訳): ポイントワールド:Wild ロボットマニピュレーションのための3次元世界モデルのスケーリング
- Authors: Wenlong Huang, Yu-Wei Chao, Arsalan Mousavian, Ming-Yu Liu, Dieter Fox, Kaichun Mo, Li Fei-Fei,
- Abstract要約: 我々は,3次元の点流として共有された3次元空間における状態と動作を統一する,大規模な事前学習型3次元世界モデルであるPointWorldを紹介した。
リアルタイム(0.1秒)の推論速度により、PointWorldは、操作のためのモデル予測制御(MPC)フレームワークに効率的に統合できる。
本研究では,実世界のフランカロボットが,物体の剛体押圧,変形,調音操作を行うことのできる1つの事前学習チェックポイントを実証した。
- 参考スコア(独自算出の注目度): 48.807071017228964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans anticipate, from a glance and a contemplated action of their bodies, how the 3D world will respond, a capability that is equally vital for robotic manipulation. We introduce PointWorld, a large pre-trained 3D world model that unifies state and action in a shared 3D space as 3D point flows: given one or few RGB-D images and a sequence of low-level robot action commands, PointWorld forecasts per-pixel displacements in 3D that respond to the given actions. By representing actions as 3D point flows instead of embodiment-specific action spaces (e.g., joint positions), this formulation directly conditions on physical geometries of robots while seamlessly integrating learning across embodiments. To train our 3D world model, we curate a large-scale dataset spanning real and simulated robotic manipulation in open-world environments, enabled by recent advances in 3D vision and simulated environments, totaling about 2M trajectories and 500 hours across a single-arm Franka and a bimanual humanoid. Through rigorous, large-scale empirical studies of backbones, action representations, learning objectives, partial observability, data mixtures, domain transfers, and scaling, we distill design principles for large-scale 3D world modeling. With a real-time (0.1s) inference speed, PointWorld can be efficiently integrated in the model-predictive control (MPC) framework for manipulation. We demonstrate that a single pre-trained checkpoint enables a real-world Franka robot to perform rigid-body pushing, deformable and articulated object manipulation, and tool use, without requiring any demonstrations or post-training and all from a single image captured in-the-wild. Project website at https://point-world.github.io/.
- Abstract(参考訳): 人間は、視線と体の動き、そして3D世界がどのように反応するか、そしてロボット操作にも同様に不可欠な能力を見込んでいる。
本稿では,RGB-D画像と低レベルロボット動作コマンドのシーケンスが与えられた場合,Pポイントワールドは3Dで1ピクセルあたりの変位を予測し,その動作に応答する。
動作をエンボディメント固有のアクション空間(例えば関節位置)の代わりに3Dポイントフローとして表現することにより、この定式化は、エンボディメント間の学習をシームレスに統合しつつ、ロボットの物理的ジオメトリに直接条件を定式化する。
我々の3Dワールドモデルをトレーニングするために、オープンワールド環境におけるリアルおよびシミュレートされたロボット操作にまたがる大規模なデータセットをキュレートし、3Dビジョンとシミュレートされた環境の最近の進歩によって実現した。
バックボーン,アクション表現,学習目標,部分可観測性,データ混合,ドメイン転送,スケーリングに関する厳密で大規模な実証的研究を通じて,大規模3次元世界モデリングの設計原理を精査する。
リアルタイム(0.1秒)の推論速度により、PointWorldは、操作のためのモデル予測制御(MPC)フレームワークに効率的に統合できる。
本研究では,実世界のフランカロボットが,実物体の押し込み・変形・調音操作・道具使用を,実物と実物とを同時に行うことで,実物と実物との衝突を防止できることを実証した。
Project website at https://point-world.github.io/.com
関連論文リスト
- 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文 参考訳(メタデータ) (2025-06-06T16:00:31Z) - 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。
本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。
提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文 参考訳(メタデータ) (2025-05-09T05:32:40Z) - FP3: A 3D Foundation Policy for Robotic Manipulation [12.115347477632783]
ロボット操作のための最初の大規模3D基礎政策モデルであるFP3を紹介する。
わずか80のデモで、FP3は、見えないオブジェクトを持つ新しい環境で90%以上の成功率で新しいタスクを学ぶことができる。
論文 参考訳(メタデータ) (2025-03-11T23:01:08Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。
本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。
本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文 参考訳(メタデータ) (2018-12-03T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。