論文の概要: Act3D: Infinite Resolution Action Detection Transformer for Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2306.17817v1
- Date: Fri, 30 Jun 2023 17:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 11:36:49.932811
- Title: Act3D: Infinite Resolution Action Detection Transformer for Robotic
Manipulation
- Title(参考訳): act3d: ロボット操作のための無限分解能動作検出トランスフォーマー
- Authors: Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki
- Abstract要約: Act3Dは6-DoFキープレイス予測を適応空間計算で3D検出する操作ポリシー変換器である。
RLbenchは、確立された操作ベンチマークである。
我々のモデルは74RLbenchタスクにおける従来のSOTA 2Dマルチビューポリシーよりも10%の絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 15.50098156785196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D perceptual representations are well suited for robot manipulation as they
easily encode occlusions and simplify spatial reasoning. Many manipulation
tasks require high spatial precision in end-effector pose prediction, typically
demanding high-resolution 3D perceptual grids that are computationally
expensive to process. As a result, most manipulation policies operate directly
in 2D, foregoing 3D inductive biases. In this paper, we propose Act3D, a
manipulation policy Transformer that casts 6-DoF keypose prediction as 3D
detection with adaptive spatial computation. It takes as input 3D feature
clouds unprojected from one or more camera views, iteratively samples 3D point
grids in free space in a coarse-to-fine manner, featurizes them using relative
spatial attention to the physical feature cloud, and selects the best feature
point for end-effector pose prediction. Act3D sets a new state-of-the-art in
RLbench, an established manipulation benchmark. Our model achieves 10% absolute
improvement over the previous SOTA 2D multi-view policy on 74 RLbench tasks and
22% absolute improvement with 3x less compute over the previous SOTA 3D policy.
In thorough ablations, we show the importance of relative spatial attention,
large-scale vision-language pre-trained 2D backbones, and weight tying across
coarse-to-fine attentions. Code and videos are available at our project site:
https://act3d.github.io/.
- Abstract(参考訳): 3d知覚表現は、オクルージョンをエンコードし、空間的推論を簡単にするため、ロボット操作に適している。
多くの操作タスクでは、エンドエフェクタポーズ予測において高い空間精度が必要であり、通常は計算コストが高い高分解能の3d知覚グリッドを必要とする。
その結果、ほとんどの操作ポリシーは2Dで直接動作し、3D誘導バイアスを先導する。
本稿では,6自由度キーポス予測を適応的空間計算による3次元検出としてキャッシングする操作ポリシトランス act3d を提案する。
1つ以上のカメラビューからプロジェクションされていない入力3d機能クラウドとして、自由空間内の3dポイントグリッドを粗密な方法で反復的にサンプリングし、物理的特徴クラウドに対する相対的な空間的注意を使ってそれらを実現し、エンドエフェクタポーズ予測のための最適な特徴点を選択する。
Act3Dは、確立された操作ベンチマークであるRLbenchに、新しい最先端技術を設定する。
本モデルは,74 rlbenchタスクのsoma 2dマルチビューポリシに対して10%の絶対改善を達成し,22%の絶対改善と3倍の計算効率を実現している。
徹底的な改善では,空間的注意,大規模視覚言語で訓練された2Dバックボーン,および粗い目から細い目への重み付けの重要性が示された。
コードとビデオは、私たちのプロジェクトサイト(https://act3d.github.io/)で利用可能です。
関連論文リスト
- Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D
Data [15.53270401654078]
OVIR-3Dは、訓練に3Dデータを使うことなく、オープンな3Dオブジェクトインスタンス検索を行う方法である。
これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現される。
公開データセットと実際のロボットを用いた実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。
論文 参考訳(メタデータ) (2023-11-06T05:00:00Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。