論文の概要: 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
- arxiv url: http://arxiv.org/abs/2402.10885v2
- Date: Mon, 11 Mar 2024 22:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:47:34.644121
- Title: 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
- Title(参考訳): 3次元ディフューザ・アクター:3次元シーン表現による政策拡散
- Authors: Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki
- Abstract要約: 拡散ポリシは、条件付き拡散モデルを用いて、ロボットに条件付された行動分布と環境状態を学ぶ。
3Dロボットポリシーでは、感覚深度を用いて1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
本稿では,ロボットのエンドエフェクタの3次元回転と翻訳を反復的に認知するために,視覚シーンと環境の3次元表現を構築するニューラルポリシーアーキテクチャである3Dディフューザアクタを提案する。
- 参考スコア(独自算出の注目度): 22.38159646424264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We marry diffusion policies and 3D scene representations for robot
manipulation. Diffusion policies learn the action distribution conditioned on
the robot and environment state using conditional diffusion models. They have
recently shown to outperform both deterministic and alternative
state-conditioned action distribution learning methods. 3D robot policies use
3D scene feature representations aggregated from a single or multiple camera
views using sensed depth. They have shown to generalize better than their 2D
counterparts across camera viewpoints. We unify these two lines of work and
present 3D Diffuser Actor, a neural policy architecture that, given a language
instruction, builds a 3D representation of the visual scene and conditions on
it to iteratively denoise 3D rotations and translations for the robot's
end-effector. At each denoising iteration, our model represents end-effector
pose estimates as 3D scene tokens and predicts the 3D translation and rotation
error for each of them, by featurizing them using 3D relative attention to
other 3D visual and language tokens. 3D Diffuser Actor sets a new
state-of-the-art on RLBench with an absolute performance gain of 16.3% over the
current SOTA on a multi-view setup and an absolute gain of 13.1% on a
single-view setup. On the CALVIN benchmark, it outperforms the current SOTA in
the setting of zero-shot unseen scene generalization by being able to
successfully run 0.2 more tasks, a 7% relative increase. It also works in the
real world from a handful of demonstrations. We ablate our model's
architectural design choices, such as 3D scene featurization and 3D relative
attentions, and show they all help generalization. Our results suggest that 3D
scene representations and powerful generative modeling are keys to efficient
robot learning from demonstrations.
- Abstract(参考訳): ロボット操作のための拡散ポリシーと3次元シーン表現を融合する。
拡散ポリシーは、条件拡散モデルを用いてロボットに条件づけられた行動分布と環境状態を学ぶ。
彼らは最近、決定論的および代替的な状態条件付きアクション分散学習方法の両方よりも優れることを示した。
3dロボットのポリシーは、1つまたは複数のカメラビューから収集された3dシーンの特徴表現を使用する。
彼らは、カメラの観点で2dよりも優れた一般化が示されている。
ロボットのエンドエフェクタの3D回転と翻訳を反復的に認知するために、言語命令を与えられたニューラルネットワークアーキテクチャであるDiffuser Actorを、視覚シーンと条件の3D表現として構築する。
本モデルでは,3次元の視覚的および言語的トークンに対する3次元の相対的注意を生かして3次元の翻訳・回転誤差を予測し,各繰り返しを3次元のシーントークンとして推定する。
3Dディフューザー・アクターはRLBench上で新しい最先端を設定し、現在のSOTAよりも16.3%、シングルビューでは13.1%という絶対的なパフォーマンス向上を実現した。
CALVINベンチマークでは、0ショットのシーンの一般化の設定で現在のSOTAを上回り、0.2以上のタスクを実行し、7%の相対的な増加を実現している。
また、いくつかのデモから現実世界でも動作する。
我々は,3Dシーンの演出や3D相対的な注意など,我々のモデルの設計選択を緩和し,それらすべてが一般化に役立つことを示す。
その結果,3次元シーン表現と強力な生成モデルが,実演から効率的なロボット学習の鍵であることが示唆された。
関連論文リスト
- 3D Diffusion Policy [20.569437770908337]
3次元拡散政策(DP3)は、新しい視覚模倣学習手法である。
実験では、DP3は10のデモでほとんどのタスクを処理し、55.3%の相対的な改善でベースラインを超えた。
実際のロボット実験では、DP3は頻繁に行う基準法とは対照的に、安全要件にほとんど違反しない。
論文 参考訳(メタデータ) (2024-03-06T18:58:49Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - Curiosity-driven 3D Scene Structure from Single-image Self-supervision [22.527696847086574]
これまでの研究は、孤立した3Dオブジェクトを2Dのみの自己スーパービジョンから学習することを実証してきた。
ここでは、複数のオブジェクトで構成された3Dシーン全体(位置、向き、型など)に拡張することにしました。
得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。
論文 参考訳(メタデータ) (2020-12-02T14:17:16Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。