論文の概要: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- arxiv url: http://arxiv.org/abs/2403.03954v4
- Date: Wed, 15 May 2024 10:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 17:51:17.022793
- Title: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- Title(参考訳): 3次元拡散政策: シンプルな3次元表現による一般化可能なビジュモータ政策学習
- Authors: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu,
- Abstract要約: 3次元拡散政策(DP3)は、新しい視覚模倣学習手法である。
実験では、DP3は10のデモでほとんどのタスクを処理し、24.2%の相対的な改善でベースラインを超えた。
実際のロボット実験では、DP3は頻繁に行う基準法とは対照的に、安全要件にほとんど違反しない。
- 参考スコア(独自算出の注目度): 19.41216557646392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 24.2% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
- Abstract(参考訳): 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと、一般化可能に学習することは、通常、大量の人間のデモンストレーションを消費する。
この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。
DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。
72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、24.2%の相対的な改善でベースラインを超えた。
4つの実ロボットタスクにおいて、DP3は、各タスクの40個のデモのみを考慮し、高い成功率85%の正確な制御を示し、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。
興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。
実世界のロボット学習における3D表現の重要性を明らかにする。
ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されている。
関連論文リスト
- Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations [19.914227905704102]
3Dロボットポリシーは、1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
本稿では,新しい3Dデノナイジング変換器を備えたニューラルポリシーである3Dディフューザー・アクターを提案する。
現在のSOTAよりも18.1%向上したRLBenchに新たな最先端技術が設定されている。
また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。
論文 参考訳(メタデータ) (2024-02-16T18:43:02Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - R3M: A Universal Visual Representation for Robot Manipulation [91.55543664116209]
多様な人間の映像データに基づいて事前訓練された視覚表現が、ロボット操作タスクのデータ効率の学習を可能にする方法について検討する。
R3Mは、CLIPやMoCoのような最先端のビジュアル表現と比較して、スクラッチからのトレーニングよりも20%以上改善し、10%以上改善しています。
論文 参考訳(メタデータ) (2022-03-23T17:55:09Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。