論文の概要: RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
- arxiv url: http://arxiv.org/abs/2411.16537v1
- Date: Mon, 25 Nov 2024 16:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:55.203670
- Title: RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
- Title(参考訳): RoboSpatial:ロボットのための2次元および3次元視覚言語モデルへの空間的理解の指導
- Authors: Chan Hee Song, Valts Blukis, Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield,
- Abstract要約: 室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。
実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 26.42651735582044
- License:
- Abstract: Spatial understanding is a crucial capability for robots to make grounded decisions based on their environment. This foundational skill enables robots not only to perceive their surroundings but also to reason about and interact meaningfully within the world. In modern robotics, these capabilities are taken on by visual language models, and they face significant challenges when applied to spatial reasoning context due to their training data sources. These sources utilize general-purpose image datasets, and they often lack sophisticated spatial scene understanding capabilities. For example, the datasets do not address reference frame comprehension - spatial relationships require clear contextual understanding, whether from an ego-centric, object-centric, or world-centric perspective, which allow for effective real-world interaction. To address this issue, we introduce RoboSpatial, a large-scale spatial understanding dataset consisting of real indoor and tabletop scenes captured as 3D scans and egocentric images, annotated with rich spatial information relevant to robotics. The dataset includes 1M images, 5K 3D scans, and 3M annotated spatial relationships, with paired 2D egocentric images and 3D scans to make it both 2D and 3D ready. Our experiments show that models trained with RoboSpatial outperform baselines on downstream tasks such as spatial affordance prediction, spatial relationship prediction, and robotics manipulation.
- Abstract(参考訳): 空間的理解は、ロボットが環境に基づいて決定を下す上で重要な能力である。
この基礎的なスキルは、ロボットが周囲を知覚するだけでなく、世界で意味のある推論と相互作用を可能にする。
現代のロボット工学では、これらの能力は視覚言語モデルによって引き継がれており、トレーニングデータソースによる空間推論の文脈に適用した場合、重大な課題に直面している。
これらのソースは汎用画像データセットを利用しており、しばしば洗練された空間的シーン理解能力が欠如している。
例えば、データセットは参照フレームの理解に対処しない - 空間的関係は、エゴ中心、オブジェクト中心、あるいは世界中心の観点から、明確な文脈的理解を必要とする。
この問題に対処するために,ロボット工学に関連する豊富な空間情報とアノテートされた3Dスキャンとエゴセントリック画像としてキャプチャされた実際の屋内およびテーブルトップシーンからなる大規模空間理解データセットであるRoboSpatialを紹介した。
データセットには、1Mの画像と5Kの3Dスキャン、3Mの注釈付き空間関係が含まれており、ペア化された2D中心の画像と3Dスキャンによって2Dと3Dの両方の準備が整っている。
実験の結果,RoboSpatialで訓練したモデルは,空間空き時間予測,空間関係予測,ロボット操作といった下流タスクのベースラインに優れていた。
関連論文リスト
- Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。
SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。
我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文 参考訳(メタデータ) (2023-06-18T04:34:17Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文 参考訳(メタデータ) (2022-06-09T16:05:35Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - Learning Object Placements For Relational Instructions by Hallucinating
Scene Representations [26.897316325189205]
単一入力画像から空間関係の集合に対する画素単位の物体配置確率を推定するための畳み込みニューラルネットワークを提案する。
本手法では,オブジェクトの画素関係確率や3次元モデルに対して,地上の真理データを必要としない。
実世界のデータと人間ロボット実験を用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-01-23T12:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。