論文の概要: SUGAR: Pre-training 3D Visual Representations for Robotics
- arxiv url: http://arxiv.org/abs/2404.01491v1
- Date: Mon, 1 Apr 2024 21:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:27:20.494537
- Title: SUGAR: Pre-training 3D Visual Representations for Robotics
- Title(参考訳): SUGAR:ロボットのための3D視覚表現の事前学習
- Authors: Shizhe Chen, Ricardo Garcia, Ivan Laptev, Cordelia Schmid,
- Abstract要約: ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 85.55534363501131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning generalizable visual representations from Internet data has yielded promising results for robotics. Yet, prevailing approaches focus on pre-training 2D representations, being sub-optimal to deal with occlusions and accurately localize objects in complex 3D scenes. Meanwhile, 3D representation learning has been limited to single-object understanding. To address these limitations, we introduce a novel 3D pre-training framework for robotics named SUGAR that captures semantic, geometric and affordance properties of objects through 3D point clouds. We underscore the importance of cluttered scenes in 3D representation learning, and automatically construct a multi-object dataset benefiting from cost-free supervision in simulation. SUGAR employs a versatile transformer-based model to jointly address five pre-training tasks, namely cross-modal knowledge distillation for semantic learning, masked point modeling to understand geometry structures, grasping pose synthesis for object affordance, 3D instance segmentation and referring expression grounding to analyze cluttered scenes. We evaluate our learned representation on three robotic-related tasks, namely, zero-shot 3D object recognition, referring expression grounding, and language-driven robotic manipulation. Experimental results show that SUGAR's 3D representation outperforms state-of-the-art 2D and 3D representations.
- Abstract(参考訳): インターネットデータから一般化可能な視覚表現を学習することは、ロボット工学に有望な結果をもたらした。
しかし、一般的なアプローチは2D表現の事前学習に重点を置いており、オクルージョンに対処し、複雑な3Dシーンでオブジェクトを正確にローカライズするのに最適である。
一方、3次元表現学習は単目的理解に限られている。
これらの制約に対処するために,SUGARと呼ばれるロボットのための新しい3D事前学習フレームワークを導入する。
我々は,3次元表現学習における乱雑なシーンの重要性を強調し,シミュレーションにおけるコストフリーの監視による多目的データセットを自動構築する。
SUGARは、多目的トランスフォーマーベースモデルを用いて、意味学習のためのクロスモーダル知識蒸留、幾何学構造を理解するためのマスク付きポイントモデリング、オブジェクトの余裕のためのポーズ合成の把握、3Dインスタンスのセグメンテーション、散らばったシーンの分析のための参照表現グラウンドという5つの事前学習課題に共同で対処する。
我々は,3つのロボット関連課題,すなわちゼロショット3Dオブジェクト認識,表現接地参照,言語駆動型ロボット操作について,学習した表現を評価した。
実験の結果,SUGARの3D表現は最先端の2Dおよび3D表現よりも優れていた。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - 4DContrast: Contrastive Learning with Dynamic Correspondences for 3D
Scene Understanding [22.896937940702642]
教師なし事前学習により学習した3次元表現に4次元動的対象を組み込む新しい手法を提案する。
本研究では,静的な3次元環境に移動する合成3次元形状を利用した新しいデータ拡張手法を提案する。
実験により、教師なし表現学習は、下流3次元セマンティックセマンティックセマンティックセマンティクス、オブジェクト検出、インスタンスセマンティクスタスクの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-06T13:09:07Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。