論文の概要: Object-centric 3D Motion Field for Robot Learning from Human Videos
- arxiv url: http://arxiv.org/abs/2506.04227v1
- Date: Wed, 04 Jun 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.522573
- Title: Object-centric 3D Motion Field for Robot Learning from Human Videos
- Title(参考訳): 人間ビデオからのロボット学習のための物体中心3次元運動場
- Authors: Zhao-Heng Yin, Sherry Yang, Pieter Abbeel,
- Abstract要約: 本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
- 参考スコア(独自算出の注目度): 56.9436352861611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robot control policies from human videos is a promising direction for scaling up robot learning. However, how to extract action knowledge (or action representations) from videos for policy learning remains a key challenge. Existing action representations such as video frames, pixelflow, and pointcloud flow have inherent limitations such as modeling complexity or loss of information. In this paper, we propose to use object-centric 3D motion field to represent actions for robot learning from human videos, and present a novel framework for extracting this representation from videos for zero-shot control. We introduce two novel components in its implementation. First, a novel training pipeline for training a ''denoising'' 3D motion field estimator to extract fine object 3D motions from human videos with noisy depth robustly. Second, a dense object-centric 3D motion field prediction architecture that favors both cross-embodiment transfer and policy generalization to background. We evaluate the system in real world setups. Experiments show that our method reduces 3D motion estimation error by over 50% compared to the latest method, achieve 55% average success rate in diverse tasks where prior approaches fail~($\lesssim 10$\%), and can even acquire fine-grained manipulation skills like insertion.
- Abstract(参考訳): 人間のビデオからロボット制御ポリシーを学習することは、ロボット学習のスケールアップに有望な方向である。
しかし、政策学習のためのビデオから行動知識(あるいは行動表現)を抽出する方法は、依然として重要な課題である。
ビデオフレーム、ピクセルフロー、ポイントクラウドフローといった既存のアクション表現には、複雑さのモデリングや情報の損失といった固有の制限がある。
本稿では,人間のビデオからロボット学習の動作を表現するためにオブジェクト中心の3Dモーションフィールドを提案する。
実装には2つの新しいコンポーネントを導入します。
まず、「デノイング」な3次元運動場推定器を訓練するための新しい訓練パイプラインにより、ノイズの深い深度で人間の映像から微妙な物体3次元運動を抽出する。
第二に、密集した物体中心の3次元運動場予測アーキテクチャは、背景へのクロスボデーメント転送とポリシーの一般化の両方を好んでいる。
実環境におけるシステムの評価を行う。
実験により,提案手法は,最新の手法と比較して3次元動作推定誤差を50%以上削減し,先行手法が失敗するタスクにおいて平均55%の成功率を達成した。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。