論文の概要: 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
- arxiv url: http://arxiv.org/abs/2402.10885v3
- Date: Thu, 25 Jul 2024 14:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:36:52.781528
- Title: 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
- Title(参考訳): 3次元ディフューザ・アクター:3次元シーン表現による政策拡散
- Authors: Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki,
- Abstract要約: 3Dロボットポリシーは、1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
本稿では,新しい3Dデノナイジング変換器を備えたニューラルポリシーである3Dディフューザー・アクターを提案する。
現在のSOTAよりも18.1%向上したRLBenchに新たな最先端技術が設定されている。
また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。
- 参考スコア(独自算出の注目度): 19.914227905704102
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion policies are conditional diffusion models that learn robot action distributions conditioned on the robot and environment state. They have recently shown to outperform both deterministic and alternative action distribution learning formulations. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy equipped with a novel 3D denoising transformer that fuses information from the 3D visual scene, a language instruction and proprioception to predict the noise in noised 3D robot pose trajectories. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 18.1% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it improves over the current SOTA by a 9% relative increase. It also learns to control a robot manipulator in the real world from a handful of demonstrations. Through thorough comparisons with the current SOTA policies and ablations of our model, we show 3D Diffuser Actor's design choices dramatically outperform 2D representations, regression and classification objectives, absolute attentions, and holistic non-tokenized 3D scene embeddings.
- Abstract(参考訳): 拡散ポリシーは、ロボットと環境状態に条件付けされたロボットの行動分布を学習する条件付き拡散モデルである。
彼らは最近、決定論的および代替的な行動分布学習の定式化よりも優れていることを示した。
3Dロボットポリシーでは、感覚深度を用いて1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
彼らは、カメラの視点で2Dよりもうまく一般化できることを示してきた。
これら2つの作業行を統一し、3Dディフューザ・アクターを提示する。3D視覚シーンからの情報を融合する新しい3Dデノナイジング・トランスフォーマーを備えたニューラルポリシーである。
3Dディフューザー・アクターはRLBench上で新しい最先端を設定し、現在のSOTAよりも18.1%、シングルビューでは13.1%という絶対的なパフォーマンス向上を実現した。
CALVINベンチマークでは、現在のSOTAよりも9%向上している。
また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。
現在のSOTAポリシーと我々のモデルとの徹底的な比較を通して、3Dディフューザー・アクターの設計選択が2D表現、回帰と分類の目的、絶対的な注意、そして全体論的でない3Dシーンの埋め込みを劇的に上回っていることを示す。
関連論文リスト
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting [27.45827655042124]
3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。
我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。
次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
論文 参考訳(メタデータ) (2024-10-07T01:24:39Z) - 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
論文 参考訳(メタデータ) (2024-06-26T08:17:59Z) - Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations [19.41216557646392]
3次元拡散政策(DP3)は、新しい視覚模倣学習手法である。
実験では、DP3は10のデモでほとんどのタスクを処理し、24.2%の相対的な改善でベースラインを超えた。
実際のロボット実験では、DP3は頻繁に行う基準法とは対照的に、安全要件にほとんど違反しない。
論文 参考訳(メタデータ) (2024-03-06T18:58:49Z) - GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。