Fugu-MT 論文翻訳(概要): A Universal Semantic-Geometric Representation for Robotic Manipulation

論文の概要: A Universal Semantic-Geometric Representation for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2306.10474v1
Date: Sun, 18 Jun 2023 04:34:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 20:35:22.487548
Title: A Universal Semantic-Geometric Representation for Robotic Manipulation
Title（参考訳）: ロボット操作のためのユニバーサルセマンティクス・ジオメトリ表現
Authors: Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao
Abstract要約: 本稿では,ロボット工学のための汎用認識モジュールSemantic-Geometric Representation (SGR)を提案する。 SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
参考スコア（独自算出の注目度）: 26.53025678761768
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robots rely heavily on sensors, especially RGB and depth cameras, to perceive and interact with the world. RGB cameras record 2D images with rich semantic information while missing precise spatial information. On the other side, depth cameras offer critical 3D geometry data but capture limited semantics. Therefore, integrating both modalities is crucial for learning representations for robotic perception and control. However, current research predominantly focuses on only one of these modalities, neglecting the benefits of incorporating both. To this end, we present Semantic-Geometric Representation (SGR), a universal perception module for robotics that leverages the rich semantic information of large-scale pre-trained 2D models and inherits the merits of 3D spatial reasoning. Our experiments demonstrate that SGR empowers the agent to successfully complete a diverse range of simulated and real-world robotic manipulation tasks, outperforming state-of-the-art methods significantly in both single-task and multi-task settings. Furthermore, SGR possesses the unique capability to generalize to novel semantic attributes, setting it apart from the other methods.
Abstract（参考訳）: ロボットはセンサー、特にRGBと深度カメラに大きく依存し、世界に対する認識と対話を行う。 RGBカメラは、正確な空間情報を欠きながら、豊かな意味情報を持つ2D画像を記録する。一方、深度カメラは重要な3Dジオメトリデータを提供するが、セマンティクスは限られている。したがって、ロボットの知覚と制御を学習するためには、両方のモダリティを統合することが不可欠である。しかし、現在の研究は主にこれらのモダリティの1つに焦点を合わせており、両方を組み込むことの利点を無視している。この目的のために,大規模な事前学習型2次元モデルのリッチな意味情報を活用し,三次元空間推論の利点を継承するロボットのための汎用認識モジュールであるセマンティック・幾何学表現(SGR)を提案する。実験の結果、SGRはエージェントに対して、シミュレーションおよび実世界の様々なロボット操作タスクを成功させ、シングルタスクとマルチタスクの両方において、最先端の手法よりも優れた性能を発揮することが示された。さらに、SGRには、新しいセマンティック属性に一般化するユニークな機能があり、他のメソッドとは分離されている。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文参考訳（メタデータ） (2025-07-11T02:16:32Z)
SEM: Enhancing Spatial Understanding for Robust Robot Manipulation [13.620151960111764]
SEM(Spatial Enhanced Manipulation model)は,2つの相補的視点から空間的理解を高める拡散型政策フレームワークである。空間エンハンサーは3次元幾何学的文脈で視覚表現を増強する一方、ロボット状態エンコーダは、グラフベースの関節依存のモデリングにより、エンボディメント認識構造をキャプチャする。
論文参考訳（メタデータ） (2025-05-22T04:00:12Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-11-27T18:59:52Z)
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文参考訳（メタデータ） (2024-11-25T16:21:34Z)
Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning [15.266994159289645]
Render and Diffuse(R&D)は,ロボットの3次元モデルの仮想レンダリングを用いて,画像空間内の低レベルロボット動作とRGB観察を統一する手法である。この空間統一は学習問題を単純化し、サンプル効率と空間一般化に不可欠な帰納バイアスを導入する。以上の結果から,R&Dは空間一般化能力が高く,より一般的なイメージ・ツー・アクション法よりもサンプリング効率が高いことがわかった。
論文参考訳（メタデータ） (2024-05-28T14:06:10Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
ImageManip: Image-based Robotic Manipulation with Affordance-guided Next View Selection [10.162882793554191]
ロボットが環境と対話するためには、3Dの関節による物体操作が不可欠である。既存の多くの研究では、操作ポリシーの主要な入力として3Dポイントクラウドを使用している。 RGB画像は、コスト効率の良い装置を用いた高分解能な観察を提供するが、空間的3次元幾何学的情報は欠如している。このフレームワークは、対象対象物の複数の視点を捉え、その幾何学を補完するために深度情報を推測するように設計されている。
論文参考訳（メタデータ） (2023-10-13T12:42:54Z)
SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-07T17:47:52Z)
Towards Multimodal Multitask Scene Understanding Models for Indoor Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。 MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。 MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。 MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文参考訳（メタデータ） (2022-09-27T04:49:19Z)
Extracting Zero-shot Common Sense from Large Language Models for Robot 3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文参考訳（メタデータ） (2022-06-09T16:05:35Z)
Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文参考訳（メタデータ） (2021-08-17T13:30:02Z)
RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。 RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。 RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文参考訳（メタデータ） (2021-06-22T12:53:56Z)
Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文参考訳（メタデータ） (2021-06-14T17:59:59Z)
CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文参考訳（メタデータ） (2018-12-03T13:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。