Fugu-MT 論文翻訳(概要): 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

論文の概要: 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

arxiv url: http://arxiv.org/abs/2402.10885v2
Date: Mon, 11 Mar 2024 22:05:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 00:47:34.644121
Title: 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
Title（参考訳）: 3次元ディフューザ・アクター:3次元シーン表現による政策拡散
Authors: Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki
Abstract要約: 拡散ポリシは、条件付き拡散モデルを用いて、ロボットに条件付された行動分布と環境状態を学ぶ。 3Dロボットポリシーでは、感覚深度を用いて1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。本稿では,ロボットのエンドエフェクタの3次元回転と翻訳を反復的に認知するために,視覚シーンと環境の3次元表現を構築するニューラルポリシーアーキテクチャである3Dディフューザアクタを提案する。
参考スコア（独自算出の注目度）: 22.38159646424264
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We marry diffusion policies and 3D scene representations for robot manipulation. Diffusion policies learn the action distribution conditioned on the robot and environment state using conditional diffusion models. They have recently shown to outperform both deterministic and alternative state-conditioned action distribution learning methods. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy architecture that, given a language instruction, builds a 3D representation of the visual scene and conditions on it to iteratively denoise 3D rotations and translations for the robot's end-effector. At each denoising iteration, our model represents end-effector pose estimates as 3D scene tokens and predicts the 3D translation and rotation error for each of them, by featurizing them using 3D relative attention to other 3D visual and language tokens. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 16.3% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it outperforms the current SOTA in the setting of zero-shot unseen scene generalization by being able to successfully run 0.2 more tasks, a 7% relative increase. It also works in the real world from a handful of demonstrations. We ablate our model's architectural design choices, such as 3D scene featurization and 3D relative attentions, and show they all help generalization. Our results suggest that 3D scene representations and powerful generative modeling are keys to efficient robot learning from demonstrations.
Abstract（参考訳）: ロボット操作のための拡散ポリシーと3次元シーン表現を融合する。拡散ポリシーは、条件拡散モデルを用いてロボットに条件づけられた行動分布と環境状態を学ぶ。彼らは最近、決定論的および代替的な状態条件付きアクション分散学習方法の両方よりも優れることを示した。 3dロボットのポリシーは、1つまたは複数のカメラビューから収集された3dシーンの特徴表現を使用する。彼らは、カメラの観点で2dよりも優れた一般化が示されている。ロボットのエンドエフェクタの3D回転と翻訳を反復的に認知するために、言語命令を与えられたニューラルネットワークアーキテクチャであるDiffuser Actorを、視覚シーンと条件の3D表現として構築する。本モデルでは,3次元の視覚的および言語的トークンに対する3次元の相対的注意を生かして3次元の翻訳・回転誤差を予測し,各繰り返しを3次元のシーントークンとして推定する。 3Dディフューザー・アクターはRLBench上で新しい最先端を設定し、現在のSOTAよりも16.3%、シングルビューでは13.1%という絶対的なパフォーマンス向上を実現した。 CALVINベンチマークでは、0ショットのシーンの一般化の設定で現在のSOTAを上回り、0.2以上のタスクを実行し、7%の相対的な増加を実現している。また、いくつかのデモから現実世界でも動作する。我々は,3Dシーンの演出や3D相対的な注意など,我々のモデルの設計選択を緩和し,それらすべてが一般化に役立つことを示す。その結果,3次元シーン表現と強力な生成モデルが,実演から効率的なロボット学習の鍵であることが示唆された。

関連論文リスト

Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文参考訳（メタデータ） (2025-06-04T17:59:06Z)
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルであるセンサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文参考訳（メタデータ） (2025-04-19T02:51:24Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting [27.45827655042124]
3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
論文参考訳（メタデータ） (2024-10-07T01:24:39Z)
3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
論文参考訳（メタデータ） (2024-06-26T08:17:59Z)
Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。 Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-06-25T14:42:51Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文参考訳（メタデータ） (2024-04-01T17:59:55Z)
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations [19.41216557646392]
3次元拡散政策(DP3)は、新しい視覚模倣学習手法である。実験では、DP3は10のデモでほとんどのタスクを処理し、24.2%の相対的な改善でベースラインを超えた。実際のロボット実験では、DP3は頻繁に行う基準法とは対照的に、安全要件にほとんど違反しない。
論文参考訳（メタデータ） (2024-03-06T18:58:49Z)
GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文参考訳（メタデータ） (2023-12-14T08:39:39Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文参考訳（メタデータ） (2023-06-30T17:34:06Z)
Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文参考訳（メタデータ） (2021-08-17T13:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。