論文の概要: Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2306.17817v2
- Date: Thu, 19 Oct 2023 19:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 03:35:22.012904
- Title: Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation
- Title(参考訳): act3d:マルチタスクロボット操作のための3次元特徴場トランスフォーマー
- Authors: Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki
- Abstract要約: Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
- 参考スコア(独自算出の注目度): 18.964403296437027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D perceptual representations are well suited for robot manipulation as they
easily encode occlusions and simplify spatial reasoning. Many manipulation
tasks require high spatial precision in end-effector pose prediction, which
typically demands high-resolution 3D feature grids that are computationally
expensive to process. As a result, most manipulation policies operate directly
in 2D, foregoing 3D inductive biases. In this paper, we introduce Act3D, a
manipulation policy transformer that represents the robot's workspace using a
3D feature field with adaptive resolutions dependent on the task at hand. The
model lifts 2D pre-trained features to 3D using sensed depth, and attends to
them to compute features for sampled 3D points. It samples 3D point grids in a
coarse to fine manner, featurizes them using relative-position attention, and
selects where to focus the next round of point sampling. In this way, it
efficiently computes 3D action maps of high spatial resolution. Act3D sets a
new state-of-the-art in RL-Bench, an established manipulation benchmark, where
it achieves 10% absolute improvement over the previous SOTA 2D multi-view
policy on 74 RLBench tasks and 22% absolute improvement with 3x less compute
over the previous SOTA 3D policy. We quantify the importance of relative
spatial attention, large-scale vision-language pre-trained 2D backbones, and
weight tying across coarse-to-fine attentions in ablative experiments. Code and
videos are available on our project website: https://act3d.github.io/.
- Abstract(参考訳): 3d知覚表現は、オクルージョンをエンコードし、空間的推論を簡単にするため、ロボット操作に適している。
多くの操作タスクは、エンドエフェクタのポーズ予測において高い空間精度を必要とし、通常は計算コストが高い高解像度の3d特徴格子を必要とする。
その結果、ほとんどの操作ポリシーは2Dで直接動作し、3D誘導バイアスを先導する。
本稿では,ロボットの作業空間を表現する3次元特徴量を用いた操作ポリシートランス act3d について紹介する。
モデルでは、感覚深度を用いて2D事前訓練された特徴を3Dに持ち上げ、3Dのサンプルポイントの特徴を計算する。
3dポイントグリッドを粗く細かい方法でサンプリングし、相対位置の注意力を使ってそれらを実現し、次のポイントサンプリングの焦点を合わせる場所を選択する。
このようにして、高空間解像度の3次元アクションマップを効率的に計算する。
Act3Dは、確立された操作ベンチマークであるRL-Benchにおいて、74のRLBenchタスクに対する以前のSOTA 2Dマルチビューポリシーに対して10%の絶対的な改善を達成し、以前のSOTA 3Dポリシーよりも3倍少ない計算で22%の絶対的な改善を達成している。
本研究では, 相対的空間的注意, 大規模視覚言語で事前訓練された2Dバックボーン, および, 粗い注意から細い注意への重み付けの重要性を, アブレーション実験で定量化する。
コードとビデオはプロジェクトのWebサイトで公開されている。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D
Data [15.53270401654078]
OVIR-3Dは、訓練に3Dデータを使うことなく、オープンな3Dオブジェクトインスタンス検索を行う方法である。
これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現される。
公開データセットと実際のロボットを用いた実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。
論文 参考訳(メタデータ) (2023-11-06T05:00:00Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。