論文の概要: A Universal Semantic-Geometric Representation for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2306.10474v1
- Date: Sun, 18 Jun 2023 04:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 20:35:22.487548
- Title: A Universal Semantic-Geometric Representation for Robotic Manipulation
- Title(参考訳): ロボット操作のためのユニバーサルセマンティクス・ジオメトリ表現
- Authors: Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao
- Abstract要約: 本稿では,ロボット工学のための汎用認識モジュールSemantic-Geometric Representation (SGR)を提案する。
SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。
我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
- 参考スコア(独自算出の注目度): 26.53025678761768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots rely heavily on sensors, especially RGB and depth cameras, to perceive
and interact with the world. RGB cameras record 2D images with rich semantic
information while missing precise spatial information. On the other side, depth
cameras offer critical 3D geometry data but capture limited semantics.
Therefore, integrating both modalities is crucial for learning representations
for robotic perception and control. However, current research predominantly
focuses on only one of these modalities, neglecting the benefits of
incorporating both. To this end, we present Semantic-Geometric Representation
(SGR), a universal perception module for robotics that leverages the rich
semantic information of large-scale pre-trained 2D models and inherits the
merits of 3D spatial reasoning. Our experiments demonstrate that SGR empowers
the agent to successfully complete a diverse range of simulated and real-world
robotic manipulation tasks, outperforming state-of-the-art methods
significantly in both single-task and multi-task settings. Furthermore, SGR
possesses the unique capability to generalize to novel semantic attributes,
setting it apart from the other methods.
- Abstract(参考訳): ロボットはセンサー、特にRGBと深度カメラに大きく依存し、世界に対する認識と対話を行う。
RGBカメラは、正確な空間情報を欠きながら、豊かな意味情報を持つ2D画像を記録する。
一方、深度カメラは重要な3Dジオメトリデータを提供するが、セマンティクスは限られている。
したがって、ロボットの知覚と制御を学習するためには、両方のモダリティを統合することが不可欠である。
しかし、現在の研究は主にこれらのモダリティの1つに焦点を合わせており、両方を組み込むことの利点を無視している。
この目的のために,大規模な事前学習型2次元モデルのリッチな意味情報を活用し,三次元空間推論の利点を継承するロボットのための汎用認識モジュールであるセマンティック・幾何学表現(SGR)を提案する。
実験の結果、SGRはエージェントに対して、シミュレーションおよび実世界の様々なロボット操作タスクを成功させ、シングルタスクとマルチタスクの両方において、最先端の手法よりも優れた性能を発揮することが示された。
さらに、SGRには、新しいセマンティック属性に一般化するユニークな機能があり、他のメソッドとは分離されている。
関連論文リスト
- RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。
実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning [15.266994159289645]
Render and Diffuse(R&D)は,ロボットの3次元モデルの仮想レンダリングを用いて,画像空間内の低レベルロボット動作とRGB観察を統一する手法である。
この空間統一は学習問題を単純化し、サンプル効率と空間一般化に不可欠な帰納バイアスを導入する。
以上の結果から,R&Dは空間一般化能力が高く,より一般的なイメージ・ツー・アクション法よりもサンプリング効率が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-28T14:06:10Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - ImageManip: Image-based Robotic Manipulation with Affordance-guided Next
View Selection [10.162882793554191]
ロボットが環境と対話するためには、3Dの関節による物体操作が不可欠である。
既存の多くの研究では、操作ポリシーの主要な入力として3Dポイントクラウドを使用している。
RGB画像は、コスト効率の良い装置を用いた高分解能な観察を提供するが、空間的3次元幾何学的情報は欠如している。
このフレームワークは、対象対象物の複数の視点を捉え、その幾何学を補完するために深度情報を推測するように設計されている。
論文 参考訳(メタデータ) (2023-10-13T12:42:54Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文 参考訳(メタデータ) (2022-06-09T16:05:35Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。