論文の概要: 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
- arxiv url: http://arxiv.org/abs/2506.06199v1
- Date: Fri, 06 Jun 2025 16:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.777962
- Title: 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
- Title(参考訳): 3D Flow Action:3D Flow World Modelによるクロス・エボディメント・マニピュレーションの学習
- Authors: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan,
- Abstract要約: 主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
- 参考スコア(独自算出の注目度): 40.730112146035076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulation has long been a challenging task for robots, while humans can effortlessly perform complex interactions with objects, such as hanging a cup on the mug rack. A key reason is the lack of a large and uniform dataset for teaching robots manipulation skills. Current robot datasets often record robot action in different action spaces within a simple scene. This hinders the robot to learn a unified and robust action representation for different robots within diverse scenes. Observing how humans understand a manipulation task, we find that understanding how the objects should move in the 3D space is a critical clue for guiding actions. This clue is embodiment-agnostic and suitable for both humans and different robots. Motivated by this, we aim to learn a 3D flow world model from both human and robot manipulation data. This model predicts the future movement of the interacting objects in 3D space, guiding action planning for manipulation. Specifically, we synthesize a large-scale 3D optical flow dataset, named ManiFlow-110k, through a moving object auto-detect pipeline. A video diffusion-based world model then learns manipulation physics from these data, generating 3D optical flow trajectories conditioned on language instructions. With the generated 3D object optical flow, we propose a flow-guided rendering mechanism, which renders the predicted final state and leverages GPT-4o to assess whether the predicted flow aligns with the task description. This equips the robot with a closed-loop planning ability. Finally, we consider the predicted 3D optical flow as constraints for an optimization policy to determine a chunk of robot actions for manipulation. Extensive experiments demonstrate strong generalization across diverse robotic manipulation tasks and reliable cross-embodiment adaptation without hardware-specific training.
- Abstract(参考訳): ロボットの操作は長年、難しい課題だったが、人間はカップをマグカップラックにぶら下げるなど、複雑な操作を無力で行うことができる。
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
これにより、さまざまな場面でさまざまなロボットに対して、統一的で堅牢なアクション表現を学ぶことが妨げられる。
人間が操作タスクをどのように理解するかを観察すると、オブジェクトが3D空間内でどのように動くべきかを理解することが、アクションを導くための重要な手がかりであることが分かる。
この手がかりは、人間と異なるロボットの両方に適している。
そこで我々は,人間とロボットの操作データから3次元フローワールドモデルを学習することを目指す。
このモデルは、3次元空間における相互作用対象の将来の動きを予測し、操作のためのアクションプランニングを導く。
具体的には,移動物体自動検出パイプラインを用いて,ManiFlow-110kという大規模3次元光フローデータセットを合成する。
ビデオ拡散に基づく世界モデルは、これらのデータから物理の操作を学習し、言語命令に基づいて3次元の光フロー軌道を生成する。
生成した3次元オブジェクト光フローを用いて,予測最終状態をレンダリングし,GPT-4oを利用して,予測フローがタスク記述と整合するかどうかを評価するフロー誘導レンダリング機構を提案する。
これにより、ロボットにはクローズドループ計画能力が備わっている。
最後に、予測された3次元光学フローを、操作のためのロボット動作の断片を決定する最適化ポリシーの制約とみなす。
広範な実験は、多様なロボット操作タスクにまたがる強力な一般化と、ハードウェア固有の訓練を伴わない信頼性の高いクロスエボディメント適応を示す。
関連論文リスト
- Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - DexArt: Benchmarking Generalizable Dexterous Manipulation with
Articulated Objects [8.195608430584073]
物理シミュレーターにおけるArticulated ObjectによるDexterous操作を含むDexArtという新しいベンチマークを提案する。
本研究の主目的は,未確認対象に対する学習方針の一般化性を評価することである。
一般化を実現するために3次元表現学習を用いた強化学習を用いる。
論文 参考訳(メタデータ) (2023-05-09T18:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。